快捷导航

拍照就能识别万物,AI是怎么看“懂”图片的?

2025-1-14 15:59| 发布者: admin| 查看: 66| 评论: 0
摘要: 欢迎来到科普中国特别推出的寒假精品栏目“给孩子的高新科技课”!人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从 AI 绘画到机器学习,它为我们打开了 ...


欢迎来到科普中国特别推出的寒假精品栏目“给孩子的高新科技课”!


人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从 AI 绘画到机器学习,它为我们打开了一个充满无限可能的未来。本栏目将以通俗易懂的方式,用视频和文字给孩子讲述人工智能的原理、应用及其对社会的深远影响。


快跟我们一起开启这场 AI 之旅吧!


以下为文字版本:


生活中,AI 图像识别无处不在。


看到不认识的植物?拍张照片,分分钟就能找到答案。自动驾驶汽车也好像长了眼睛一样,能轻轻松松判断出,哪里是道路,哪里是树木。人脸识别技术,也让我们实现了刷脸支付。


而这一切,都离不开一项技术——卷积神经网络。这项技术,就像 AI 的眼睛。


想了解 AI 的眼睛是怎么工作的,我们先要看一看动物的眼睛是怎么工作的。


从猫眼到 AI 眼:视觉神经元的启示


20 世纪 50 到 60 年代,大卫·休伯尔和托斯坦·威泽尔对猫的视觉进行了研究,他们发现,在一幅画面进入猫的视野之后,猫大脑中负责视觉的神经元,被不同的东西激活了。


为了方便理解,我们看个例子。比如这样一幅画面,有的神经元对画面中物体的边缘线条非常感兴趣,会着重处理这些信息,有的神经元对大块的颜色比较敏感,更擅长处理这些信息。这些神经细胞一起工作,帮助生物识别各种复杂的图像。



拍照就能识别万物,AI是怎么看“懂”图片的?

埃德加·德加 《去外省的赛马场》(At the Races in the Countryside)1869


这项研究,让大卫和托斯坦获得了 1981 年诺贝尔生理学或医学奖,也启发了人工智能领域一个非常重要的算法,卷积神经网络


在 1980 年代,日本科学家福岛邦彦设计了一个叫做 Neocognitron 的模型,用来识别日文手写字符,Neocognitron 中有不同的“层”,用来提取对不同的信息,最后综合这些信息对识别到的字符进行判断。


这启发了一位叫做扬·乐昆的法国科学家,扬·乐昆设计出了最早的卷积神经网络,并且基于卷积神经网络,建立了 LeNet 模型。这个模型在当时被很多银行用来识别手写字符。我们通过一个简单的例子,来看看卷积神经网络是如何工作的。


卷积神经网络:图像识别的幕后英雄


和神经网络相比,卷积神经网络在识别图片的时候,多了两个过程:卷积和汇聚。


卷积,这个过程,是由一个叫卷积核的东西完成的。


一张图片,在计算机的眼里,其实是一个个像素点组成的矩阵,卷积核不是单独去考虑每一个像素点上的信息,而是同时对某个区域,比如 3×3,5×5 的像素点信息进行处理。这样可以综合考虑相邻像素点的信息,更好地提取出更高级特征。


你可以想象一下,卷积核就像是一个观测员拿着有特定视野的望远镜去看一幅图片,把看到的信息处理记录下来。


而且我们可以设置有不同侧重点的观测员,以提取图片中的不同维度信息。比如,有的观测员着重提取颜色信息,有的着重提取物体边缘轮廓信息,有的专门提取某个特定形状的信息。最后综合这些信息,帮助神经网络做出更好的判断。


此外,卷积神经网络还有一个重要的步骤——汇聚(又称池化)。


图片往往是一个非常大的矩阵,汇聚能够把一块区域里的信息压缩成一个信息。假如,对一个 16×16 的矩阵,可以通过汇聚的方法,提取 2×2 格子里颜色最深一格的信息,就能把它变成这样的 8×8 的矩阵。如果再进行一次相同的汇聚,就可以把 8×8 的矩阵,变成 4×4 的矩阵。虽然图像汇聚后会有一些变化,但是依然保留了整个图像中的基本特征。



拍照就能识别万物,AI是怎么看“懂”图片的?


拍照就能识别万物,AI是怎么看“懂”图片的?


卷积和汇聚,让卷积神经网络能够非常好地对图片信息进行提取,对于图像的学习处理效率上有了非常大的提升。


当然,卷积神经网络也会使用跟神经网络一样的反向传播算法,不断根据已知结果逆向调整神经网络中的参数,以做出越来越准确的判断。


那么,AI如何改变一些行业的生态?接下来的几集中,我们将一同探究。



策划制作

本文为科普中国-创作培育计划作品

出品|中国科协科普部

监制|中国科学技术出版社有限公司、北京中科星河文化传媒有限公司

作者丨北京云御纪文化传播有限公司

审核丨秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副教授

策划丨符思佳

责编丨符思佳


鲜花

握手

雷人

路过

鸡蛋

关注我们:东远物联

抖音

微信咨询

咨询电话:

199-2833-9866

D-Think | 广州东远智能科技有限公司

地址:广州市白云区北太路1633号广州民营科技园科创中心2栋16楼

电话:+86 020-87227952 Email:iot@D-Think.cn

Copyright  ©2020  东远科技  粤ICP备2024254589号

免责申明:部分图文表述来自于网络,如有侵权请联系作者删除!