机器视觉带来什么?

让无人驾驶“阿波龙”更安全地在路上行驶

让医生们多一双不知疲倦的眼睛进行诊断

让“看透”世界的机器人进入灾区挽救伤员

就像一个歌词所写,“让我做你的眼睛,那样你才看得清”。视觉智能已经从模仿人类到超越人类,在人类持续进化中,它也在不断自我进化中。

从模仿到超越,视觉智能下一步会怎样进化?

在上一期《AI应用 | 从感知到认知,人工智能的现在与未来》,我们介绍了人工智能的核心技术,这一期我们仍旧从技术角度介绍视觉智能。

什么是视觉智能?在《百度大脑领导力白皮书》中定义为,计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。

人类视觉是否不断进化?

让计算机拥有“眼睛”,这不是简单给计算机安装摄像头或者传感器就可以实现的,还涉及到“眼睛”的进化。

比如人类的视觉系统的硬件是由“角膜、虹膜、晶状体及视网膜”构成,是否还在继续进化,科学界仍有争议。

如果说停止了进化,为什么人类还存在蓝色眼睛?蓝色眼睛被认为最早出现在两万年前的土耳其地区,在此之前,人类的眼睛都是以棕褐色为主。

也许这是人类视觉系统持续进化的佐证之一。

正由于“眼睛”在不断进化中,人类才能从“智人”发展到现在的人类,具有看清楚的能力(视力)、感知颜色和亮度、还有对空间频率和时间频率的感知。

可以说,视觉一直都是人类最重要的感知系统,如今在人工智能时代,这一能力也被“移植”过来,努力让计算机“看懂”所有东西。

先模仿再超越

“让机器看到”的第一步就从模仿人类开始。那么在技术如何实现?

这起源于20世纪50年代的统计模式识别的计算机视觉,主要基于二维技术研究,但结果远不如人类视觉。

在如今公认的第三阶段的人工智能中,由于深度学习算法的突破,直接推动了神经网络算法的发展。有趣的是,人类的大脑皮层有一半的神经元与视觉有关,这与神经网络算法中的“神经元”很类似。一旦借鉴人类“视觉”系统之后,神经网络算法直接成为计算机视觉的技术引擎,让视觉智能应用场景丰富起来。

现在,计算机视觉在某些方面甚至超出人类。人眼识别的错误率一般为5.1%,而在2012 ImageNet大规模视觉识别挑战赛中,计算机视觉错误率已经下降到了3.57%。

当机器超越人类这一拐点出现,预计着视觉智能应用的大规模爆发。

图像理解:看得清清楚楚

根据解决的问题,计算机视觉可分为图像理解、三维视觉、动态视觉三大类。

一是图像理解,让计算机看懂图像、物体的边缘、边界甚至是可以识别、检测姿态和图像文字说明等,举例几个应用场景。

例子1:你现在想要办理消费分期、在线贷款、在线考试等……可能会涉及到风险认证,而主要手段就是靠人脸识别。

例子2:你在公共场所抽烟,那么这种违规行为都会进入智慧安防中的机器人“法眼”中,像百度云对“抽烟”行为能有好几种判断,这都是建立在“看清楚”的基础之上。

例子3:“不减十斤不换头像”的你还可以进行健康管理,在APP中识别出图像中的菜品及热量,还能显示菜品信息和健康管理建议。同理,在智慧餐厅中,拍摄餐盘就能快速结算;你拿起手机扫描物体就能进行植物识别、动物识别,瞬间成科普专家。

这都是图像理解的应用场景。

三维视觉:像人类一样具有“读心术”

机器视觉还在不断升级中,可以模仿人类的眼睛以三维视觉对周围环境进行精确的定位。

我们在侦探类作品中常看到读心术,其实这是读微表情。百度云的“情绪识别专家”,透过镜头可以捕捉人的微表情,一不小心就可能比你更懂你的情绪。

现在,百度云将三维视觉应用在人脸识别上,活体识别正确率已经提升至99.55%。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。

那么,这怎么实现的?

主要体现在两层:

硬件层面,百度云有适用于三维视觉的立体视觉AI传感器,并且采用三维AI视觉模组,使成本大大降低。

软件层面,开发了从实时端上运算到大规模云端分布式计算等多种算法。

动态视觉:“看透”不是难事

在二维、三维等静态图像识别技术相对成熟之后,百度开始探索让计算机看懂视频的技术。

  • 嫌视频直播不够好玩?机器人可以在视频中识别,用户人体轮廓,实时增加各种设定的背景特效、贴纸道具,让你的娱乐体验更丰富。
  • 影视后期工作量大?机器人也可以识别出影视作品中的人像区域,进行一键抠像、背景替换等后期处理。

百度云视觉技术已经把世界“看透”。基于百度三维视觉技术,机器可以像人一样看透世界,从而更好地在AR、新零售、工程机械等领域施展才能。基于动态视觉研究,可以更好地进行视频分析以及人机交互。

当前,百度计算机视觉技术也已全线开放,包括人脸识别、文字识别(OCR)、图像审核、图像识别、图像搜索5大类别,58项基础能力,已服务于几十万开发者。