百度推出全新AI计算架构 结合飞桨优化计算能力
专栏:科技资讯
发布日期:2019-07-05
阅读量:3934
7月3日下午,“Baidu Create 2019”百度 AI开发者大会百度大脑论坛如期举行。在上午主论坛中,百度首席技术官王海峰正式发布百度大脑5.0,实现了历史上最具跨越性升级,在算法突破、计算架构升级的基础上,实现AI算法、计算架构和应用场景的融合创新,成为软硬一体AI大生产平台。
夺人眼球的“机械臂倒盖碗茶”、任性的“中英自由说”、智能语音芯片“百度鸿鹄”…都给观众留下深刻印象,一下拉近了AI科技和人之间的距离。这背后又隐藏着哪些顶尖技术?百度大脑5.0何以称之为软硬一体的AI大生产平台?下午场满满“技术范儿”的百度大脑论坛一一揭晓。 语音、视觉、语言与知识 AI算法创新并驾齐驱重磅升级后的百度大脑5.0打通了从基础层的深度学习技术到通用AI能力、应用技术方案,再到定制化模型,以及最终的部署和集成,整个人工智能产业化应用落地的全部流程,实现了AI技术的标准化、自动化和模块化。 一直引领行业创新的百度大脑语音技术此次亮出在语音识别、语音合成、远场语音交互芯片方面的成绩单。百度语音技术部高级总监高亮介绍,识别方面,百度提出流式多级的截断注意力模型SMLTA,这是国际上首次实现局部注意力建模超越整句的注意力模型,也是国际上首次实现在线语音大规模使用注意力模型。SMLTA在大幅提升识别速度的同时,也提高了识别准确率。在输入法有效产品相对准确率提升15%,音箱有效产品相对准确率提升20%。合成方面,针对现阶段面临风格迁移、音色模拟和情感拟人的三大挑战,百度推出语音合成技术Meitron,可以将语音中的音色、风格、情感等要素映射到不同的子空间,在使用时,不同要素可以任意组合,灵活的控制合成语音的风格。同时降低语言合成门槛,仅需20句话就可以制作一个人的专属声音。 对于落地应用正在端侧呈现出巨大需求,百度大脑语音团队研发出一款针对远场语音交互打造的芯片——百度鸿鹄芯片。鸿鹄芯片的设计,变革传统芯片设计方法,遵循“软件定义芯片”的全新设计思路。该芯片采用双核HiFi4架构,2.8M大内存,台积电40nm工艺,在此硬件规格上,100mw左右平均工作功耗,即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。同时,按照车规级标准打造使鸿鹄芯片可满足极严格的需求,将为车载语音交互,以及智能家居等场景带来更大想象力。鸿鹄芯片流片的同时,即实现了量产。 百度视觉技术在2019年各大国际赛事中开启“开挂”模式,在前不久结束的CVPR上分别在视频理解、人脸活体、车辆REID等领域获得第一,上半年在NTRIE2019、ICME2019、ICDAR2019、DWAN2019等比赛中也屡屡夺冠。百度视觉技术部、增强现实技术部总监吴中勤介绍,5G时代,越来越多物理设备将连接到高可靠、低延时的网络空间,这将彻底改变人们与环境及设备的交互方式。本次全新发布视觉语义化平台2.0,正在推进视觉技术由“看清看懂”向“交互”进行升级。视觉语义化平台2.0在交互升级和软硬件结合两大方面实现突破。 交互升级包含一体化人机交互系统和大场景物理世界交互系统。简单而言,一体化人机交互系统是人与机器、虚拟环境的自然交互与融合,该系统适用于实现AR特效的直播、小视频、特效小程序等场景,已应用于百度多款视频App。大场景物理世界交互系统是将视觉定位与AR技术突破性结合,实现大范围的虚拟信息与物理世界的精准叠加,从而建立起AI时代全新的交互系统。目前,软硬件结合可以满足应用场景更高效的视觉计算,以及更低延时的体验,同时能保护数据隐私。百度视觉方面的软硬件结合主要聚焦于模型压缩平台PaddleSlim、多模态FaceID开发组件以及软硬件一体解决方案AI相机三部分。FaceID覆盖设备量已超1200万台。 视觉语义化平台2.0更新了许多先进的感知技术,也让机器人技术实现新突破。百度三维视觉首席科学家杨睿刚介绍,机器人就是一个智能体,除了感知技术,智能体需要决策和动作相关的技术,实现从环境感知到主动感知。目前,百度研究的智能体技术主要集中在自动驾驶Apollo、工程机械和服务机器人三大方面。上午主论坛中引人关注的机械臂“茶博士”不仅能说会道,还完成了传统的长嘴壶倒茶工作,其背后依靠的正是服务机器人方案。基于百度3D视觉,机器人可以对茶杯的位置进行检测和追踪。通过机器人运动规划和控制,机械臂可以对工作空间进行碰撞检测,避开障碍物;实时规划运动后,可自动生成倒茶轨迹;随后,感知水流变化,实时调整倒茶位置。语音语义联动技术解析,更是让机器人像“人”一般,听得懂,说得好,做得准。 在语言和知识技术方面,百度大脑也公布了一系列创新和突破。百度AI技术平台体系执行总监吴甜向介绍,百度设计并实现了知识增强的语义理解框架——ERNIE,具备可持续学习能力,核心模型能力不断提升。目前,ERNIE累计学习了超10亿知识,全面刷新中文NLP任务的指标,在百度众多产品应用中提升效果。机器同传方面也有最新进展,在翻译过程中对语音识别结果进行纠错的联合词向量编码技术,可解决多轮翻译一致性和连贯性问题的语篇翻译模型等,结合先进的语音技术,百度大脑实现了高准确、低时延的机器同传技术。 知识,能帮助AI更深度地理解真实世界。在主论坛中,王海峰用近期热映的音乐纪录片《大河唱》,形象展示了融合百度知识图谱技术的视频语义理解能力。该技术通过对视频的多模态知识解析,在多元异构知识图谱上建立关联,并通过计算推理,建立对视频的深度语义理解。 此外,吴甜还正式发布行业知识图谱平台和智能创作平台2.0。行业知识图谱平台旨在满足各行各业构建和应用知识图谱来帮助推进智能化的需求,行业知识图谱平台基于领先的知识图谱核心技术,提供智能高效的知识生产流程、低成本启动和跨行业迁移的能力,帮助产业开发者定制行业知识图谱并应用。全新的智能创作平台集成了实时热点追踪、关联丰富素材,已经具有全面的创作辅助能力,可轻松解决传统内容创作面临的问题,全流程助力创作者,吴甜也预告了10月份将进行邀测的多模态自动创作功能。目前,百度已构建百度大脑·语言与知识技术开放平台,不仅有丰富的基础技术,还形成了包括智能创作平台在内的翻译开放平台、UNIT平台、知识图谱构建与应用平台共四大应用级平台,为不同领域提供百度领先的语言与知识技术。 夯实基础实力 聚焦AI计算 挖掘数据价值百度大脑5.0不仅包含算法层面创新,在算力方面也实现重大突破。近年来,算法对算力需求增长近300,000倍,而芯片的计算性能仅提升30倍,两者之间存在巨大鸿沟。 百度副总裁侯震宇为现场观众分享了百度新一代AI计算架构。面对AI计算的挑战,需要能够从端到端来提供AI计算能力,这要求计算系统从旧有的对海量数据处理能力、对IO高峰值的追求,转变为满足AI训练功能方面IO密集、计算密集、通信密集的需求,和AI推理功能方面大吞吐和低延迟的需求。 底层的芯片和上层的应用之间,还需要操作系统承接。王海峰认为,深度学习框架就是智能时代的操作系统。百度自研的国内唯一功能完备的深度学习平台“飞桨”就是中国自己的“AI操作系统”。主论坛中,正式宣布百度飞桨与华为麒麟芯片深度对接,全球领先的端侧AI芯片和深度学习平台,将联合为端侧AI提供最强劲算力、打造最好的深度学习运行效率。 对于飞桨,很多开发者都非常熟悉。现场百度深度学习技术平台部总监马艳军详细介绍了飞桨的五大核心优势。在核心框架层面,飞桨同时支持动态图与静态图,兼顾了灵活性与效率;飞桨提供了70多个官方的、达到工业级应用效果的模型;飞桨支持大规模的分布式训练以及端到端的部署;对于中国开发者,飞桨提供系统的深度学习技术服务,有非常全面的中文支持。马艳军现场还表示,技术界“奥斯卡”,已成功举办15年的经典赛事“2019百度之星”即日起开始报名,其中百度之星的编程赛是飞桨核心框架开发的任务;百度之星开发赛,则是基于飞桨的目标检测任务。 为了降低建模的成本,提高建模的效率,并降低对大数据的依赖,减少人工的干预,百度开发了AutoDL自动化建模技术。论坛上,百度大数据实验室主任浣军正式发布AutoDL 3.0,从设计、迁移和适配三方面进行全面升级,并分享了多个实际案例,目前已通过飞桨正式开源。 说点什么
发表
最新评论
|
点击开启品牌新篇章