7月3日~4日,一年一度的百度AI开发者大会在京举行。承载AI to B发展的智能云业务,以丰富多彩的落地案例和一站式的开发者服务深受企业、机构、开发者的关注和垂询。百度智能云除了基础服务保障,在AI服务方向,更是助力企业创新发展。本月,我们将打磨和升级的多项AI新技术、新能力与大家开放共享,欢迎关注和使用,持续创造价值!

AI技术再次升级,新技术、更丰富的平台你了解多少?

更多AI技术能力上新

不仅在产品前端和用户体验上不断优化,针对不同行业及各个细分领域,百度智能云都在细节上进行完善调整,在AI能力方面,从语音识别、文字识别、人体分析、图像识别和车辆分析五个技术方向上,加速进化产品能力和服务支持:

1、语音识别

这次,在语音识别能力上,升级了极速版接口,在以往pcm 、wav 、amr等语音格式基础上,增加m4a格式支持。让小程序也可实现直接调用,大大减少了音频格式转换所需的资源和时间,大幅提升接入效率,语音识别准确率也有同步提升。

2、文字识别OCR

两项新能力正式投入商用,其中火车票识别模型支持对红蓝火车票的8个关键字段,包括车票号码、始发站、目的站等信息的结构化识别。而出租车票识别模型支持对全国各大城市出租车票的6个关键字段,如发票号码、金额等信息进行结构化识别。

这两大模型的识别准确率均超过95%,将为企业报税带来便利,能够有效减少人工核算工作量,降低人力成本,实现财税报销的自动化。

3、人体分析

升级后的人流量统计优化模型算法提升了人数统计的准确率,50人以上的图片,人数统计的平均准确率高达98%以上。同时,升级后的模型算法支持框选多个不规则区域统计局部人数,方便统计观察图片中多个重点区域的人群热度,最多可一次性指定10个区域,这在安防监控等场景下有着重要意义,可用于及时导流、限流,预警核心区域人群过于密集等安全隐患。

手部关键点识别现已开放邀测,检测图片中的手部并返回手部矩形框位置,定位手部的21个主要骨节点,可用于自定义手势检测、AR 特效、人机交互等场景。

危险行为识别现已开放邀测,针对5s内的监控视频片段,目前能支持识别7类危险行为,其中包括情绪性指人、摔倒、激烈抱怨、拉扯推搡、激烈搂抱和踢踹等动作的识别,应用于特殊场景下,能协助日常的治安管理。

4、图像识别:3项新能力全面开放

▷ 红酒识别技术 意味着只要输入一张图片,就能识别图像中的红酒标签,返回红酒名称、国家、产区、等信息,现可识别数十万中外红酒,方便在电商购物、红酒鉴定等场景使用。

▷ 货币识别技术 现可识别图像中的货币类型,返回货币名称、代码、面值、年份信息,可识别百余种国内外常见货币。

▷ 黑白图像上色技术 只需上传黑白照片,即可立刻获得彩色照片。现可接入小程序或网页等,方便各种主题活动的开展。

5、车辆分析

▷ 车辆分割 目前该技术以识别小汽车为主,能识别车辆的轮廓并与背景进行分离,并能够返回分割后的二值图、灰度图、前景抠图,除了各种角度外,在车门开启等情形下也能识别。

更丰富的AI开发平台

6月,百度智能云上新1个AI开发平台:语音自训练平台支持呼叫中心模型。同时发布了EasyDL训练和服务平台的两大新功能。让你零代码也能享受AI技术的强大。

1、EasyDL新发布智能标注功能

EasyDL训练和服务平台——物体检测模型重磅推出智能标注功能,面对数目庞大的训练数据集,开发者们只需优先标注数据集自动筛选出的约30%的关键图片,EasyDL即可一键标注剩余的图片,轻松获得效果优质的物体检测模型。

2、EasyDL新发布定制视频分类

智能识别视频主体,根据主体动态变化分类。面向视频分析场景,通过标注每类50个、10s以内的视频片段进行训练,从而实现 “需要连续图片帧组合判断”的视频内容分析,可用于工人操作行为规范识别、环境变化监控等场景中

3、语音自训练平台支持呼叫中心模型正式发布

零代码自助训练语音识别语言模型,上传业务场景文本语料即可训练生成专属模型,有效提升业务用语识别准确率。平台内置呼叫中心模型可训练后进行上线使用,支持呼叫中心实时语音识别、录音文件转写等产品上使用。