本文转载自产业科技
作为一种前沿通用技术,AI 对现实世界的渗透和改变,不止于末端的生活体验创新,更在于高阶的科学研究赋能。
在一些 AI 实力靠前的科技公司战略图景中,可以看到它们的锚点已经从生活智能向基础科学研究进阶。例如百度近期举办的 Create 大会 - 技术开放日媒体沟通会,向外界披露了百度最新技术进展,分层次展示百度 AI 解决方案,对智能生活、产业智能和科学研究的助推能力。
具体来看,百度相关技术负责人轮番介绍了智慧出行的自由语音交互,自动驾驶的核心技术 Bev,以及人工智能科学计算与超大规模图学习训练技术。这些 AI 黑科技已处于行业领先水平,而技术的终极目标均指向“用科技让复杂的世界更简单”的愿景。
如果说提升衣食住行的智能体验,是 AI 技术的初级能力,那么当 AI 在足够的数据、灵活的算法和巨大算力支撑下,技术趋向成熟,也应具备更高层次的服务能力。回归到科学研究的基本盘,AI 向技术上游渗透的趋势显现,助力科学研究成为衡量顶尖 AI 价值的新标尺。
不过,要想实现技术生态外延,必然需要科技企业建立一支强大的人才团队,并持续投入技术研发,只有这样才保证创新能力不断迭代,产出更多前沿解决方案,进而在多场景落地。
据了解,百度在技术研发上的累计投入已超过 1000 亿元,开发了大量业界领先的技术。在语音交互、自动驾驶和科研场景之外,百度正在续写更多技术创新推动增长的可能性。
破解语音交互回声消除
语音交互的回声消除难题,一直是手机 App 语音识别服务的痛点。尤其在使用手机导航软件时,手机一边实时播放导航语音认路,一边在听外界语音信息,很可能反应不过来,最终会出现识别自己说的话及其他错误信息。
对于导航应用而言,信息误判甚至会关系到交通安全问题。同时,为了安全起见,一些用户往往会选择先把车停下,待语音播报停止时重新发布语音指令,规划行程路线等。很明显,这样会大大降低出行效率。
对此,百度语音首席架构师贾磊说,在世界范围内,很长时间都没有一个方案能普适的支持在手机上实现全双工的语音交互。所谓全双工语音交互,通俗的解释就是在手机播放导航提示的同时,也能够听清用户的指令,甚至像真人对话一样可以被用户随时打断,并对新的语音指令给予反馈。
虽然全双工语音交互方案能实现手机导航等场景的实时交互效果,但技术突破存在诸多难点。首先,就是要做到语音交互的回声消除,才能避免手机终端识别自己播放的声音。
按照软件性质划分,回声消除的落地难度也不尽相同。对于前装软件的音箱、车载系统,可以通过硬件适配算法,提前保证回声消除的效果。
而对于手机 App 这种纯软件后装方案,需要让软件算法适配不同型号的终端硬件。一般来讲,手机上喇叭距离麦克风的距离比较近,并且手机终端款式多样,复杂的硬件环境决定了声音信号的回声消除会出现各种各样的问题。再加上手机硬件的迭代频次高,回声消除效果就更加难以保证。
值得一提的是,百度在手机语音交互场景中的回声消除上率先找到了答案。百度技术团队融合了传统信号处理和深度学习模型的优点,基于语音识别目标,实现端到端地进行回声消除和信号增强,解决了手机场景下的回声消除难题。
一个形象的概括是,即使手机音量开到最大,回声消除量也能达到 40 分贝,使得手机 APP 的语音识别功能能够正常工作。据了解,这是世界范围内第一个能在手机上实现纯软件方案回声消除的技术。
另外,对于多场景下的智能语音识别,百度研发出的基于 SMLTA2 的多场景统一预训练模型,解决噪声、用户口音和回声消除残余吸收等难题。
在日常使用过程中,语音交互的使用场景其实非常复杂,如在交互中常常面临音乐、闲聊、环境噪声、内噪残余等与交互内容无关的其他信息干扰,从而给传统语音识别技术带来极大的识别难度。有了 SMLTA2 大模型加持,各场景下识别率相对提升超过 20%,在业界同类技术中准确率最高。
搭配语音语义一体化的置信技术,百度的语音交互技术方案还可以降低错误响应,支持交互过程中的引导和澄清,让人机交互更智能顺畅,最大化接近真人之间的交流沟通。
目前,百度全双工语音交互技术已经应用于手机端,真正实现自然流畅的全双工语音交互,下一步还可能被用到更多产品中。
解锁自动驾驶“千里眼”
无论是低阶智能驾驶还是高阶自动驾驶,感知技术都是最底层的逻辑支撑。汽车自动驾驶水平的高低,关键在于系统感知识别能力的强弱。
在传统驾驶场景中,驾驶员主要依靠视觉观察道路和周边情况,而迁移到自动驾驶场景,激光雷达、毫米波雷达和高分辨率摄像头等传感器,逐渐代替人类的视觉,它们决定了自动驾驶系统能获得什么环境、路况信息。
因此,建立高效精准的感知方案,是自动驾驶从实验室走向量产的前提。从自动驾驶感知路线演变来看,经历了一场从低维到高维的过程。
以往,自动驾驶所依靠的传统图像空间感知方法,是将汽车上的雷达、摄像头等不同传感器采集来的数据分别进行分析运算,然后把分析结果融合到统一的空间坐标系中,再去规划车辆的行驶轨迹。
问题显而易见。传统方案的感知过程中,每个独立传感器收集到的数据往往受到特定视角的局限,经过各自的分析运算后,融合阶段容易发生误差叠加,最终导致真实路况难以输出,路线规划决策自然存在偏差。
随着自动驾驶技术演进,感知方案的痛点也逐渐被破解。近年来,行业中提出了 BEV(Bird's Eye View,视觉为中心的俯视图)自动驾驶感知方案。该方案就像俯瞰全局的“上帝视角”,通过车上多个传感器采集的数据,输入到一个统一模型进行整体分析推理生成鸟瞰图,有效避免误差叠加。
BEV 感知方案还能够做到时序融合,不仅收集分析一个时刻的数据,而且支持把过去一个时间片段中的数据都融合进模型做环境感知建模,时序信息的引入让感知到的结果更稳定。感知结果越稳定,车辆对于道路情况的判断就会更加准确,也会让自动驾驶成为一项更安全的技术。
作为全球自动驾驶技术第一梯队的玩家,百度在高级别自动驾驶模型方面取得较多成果。除了 BEV 自动驾驶感知方案,百度还在业内首次提出车路一体的解决方案 UniBEV,该方案集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器融合等任务。
据百度技术团队介绍,基于统一的 BEV 空间,UniBEV 车路一体大模型更容易实现多模态、多视角、多时间上的时空特征融合。百度借助大数据 + 大模型 + 小型化技术闭环,在车端路侧的动静态感知任务上快人一步。
助推科学研究智能化
若问 AI 未来的归宿是什么?答案显然要从 AI 的第一性原理出发,即作为先进生产力的代表,AI 有没有场景限制。从手机语音交互到自动驾驶感知模型再到人工智能科学计算(AI for Science),百度证明了 AI 的全景服务能力。
就在百度把 AI 解决方案输送到科学研究领域,帮助科学家们加速科学研究时,AI 事实上已经在科学研究中扮演着越来越重要的角色。
例如,在气象领域,AI 实现更快更精准的数值天气预报,包括预测强对流天气的短时临近降水情况和揭示大尺度的台风形成和演变规律。在生命科学领域,传统的科研方法面临生物类型实验数据少、计算任务复杂、学科交叉多等挑战,如今 AI 应用已逐渐在药物筛选、药物设计、靶点研究、合成生物学、疾病机理研究等方面落地,帮助生命科学研究增效提质。
AI 具备服务科研上游的能力背后,是一场 AI 技术的迭代与升级。以工具角色参与科学研究,势必对工具的精准程度和效率提出更高要求,这样才能与严谨的科研项目相适配。拆解 AI 助推科研场景下的技术底座,最核心的支撑便在于 AI 基础软硬件能力。
首先,深度学习平台需要具备更加丰富的各类计算表达能力,如高阶自动微分、复数微分、高阶优化器等;其次,科学问题求解需要超大规模的计算,这对深度学习平台与异构超算 / 智算中心适配及融合优化,神经网络编译器加速和大规模分布式训练提出了新的要求。此外,如何实现人工智能与传统科学计算工具链的协同,也是需要解决的问题。
着眼科学研究对 AI 的能力要求,过去几年,百度飞桨团队持续攻关并取得不少成果。作为国内首个自主研发、开源开放的产业级深度学习平台,飞桨研发了一系列用于科学研究的工具组件,比如赛桨 PaddleScience、螺旋桨 PaddleHelix、量桨 Paddle Quantum 等,支持复杂外形障碍物绕流、结构应力应变分析、材料分子模拟,广泛应用于 AI 加计算流体力学、生物计算、量子计算等前沿方向的科研探索和产业应用。
对于科学领域大规模计算的需求,飞桨推出了超大规模图学习训练技术 PGLBox。这项技术是业界首个同时支持复杂算法 + 超大图 + 超大离散模型的大规模图学习训练技术,通过显存、内存、SSD 三级存储技术和训练框架的性能优化技术,单机即可支持百亿节点、数百亿边的图采样和训练,并可通过多机扩展支持更大规模。
衡量一项技术的价值前景,关键标准在于产学研的有效落地,以及技术生态的共生共荣。目前,百度飞桨已经与高校、科研机构等开展了计算流体力学、分子动力学、动力气象学等方面的范例建设,并形成了一些开放性的、多学科交叉的生态社区,包括飞桨特殊兴趣小组 (PPSIG)、共创计划等,多方协同强化 AI 的科研创新底色。
押注 AI for Science 赛道,对百度飞桨而言有难度,但很值得。每一次技术突破,都加深了百度飞桨对 AI 的洞察力和号召力,置身科学全景,百度飞桨不做旁观者,而是科技文明的推动者。
原文链接:https://www.bilibili.com/read/cv21150610