轿车(che)自(zi)动行驶(shi)在高速公路上(shang),路上(shang)的电(dian)路为车(che)子引导方向,一(yi)家人(ren)围(wei)坐在车(che)内玩(wan)着多米诺(nuo)骨牌……一(yi)张上(shang)个世纪的老旧(jiu)插画描绘出人(ren)们(men)对未来出行的憧憬:没(mei)有堵车(che),没(mei)有疲(pi)劳驾驶(shi),能够安心享受(shou)旅程(cheng)。
这是有(you)关智能驾(jia)驶(shi)的早(zao)期写照。百年来,经过自(zi)动驾(jia)驶(shi)产业不(bu)断的推进与技术竞速,汽车(che)从(cong)马力到算力,插画里(li)的出行画面正在逐步被投射在现实(shi)生活(huo)中,成为当下(xia)高热(re)度的发展趋势之(zhi)一。
这一变(bian)迁(qian)背后,技术(shu)突破与服务升(sheng)级,正在迭代更多智(zhi)能驾(jia)(jia)驶(shi)场景。近年,由智(zhi)能座舱、自动驾(jia)(jia)驶(shi)及(ji)车(che)路协同(tong)三大核心构成的智(zhi)能驾(jia)(jia)驶(shi)产业(ye)链(lian),涵盖了包括芯(xin)片、传感(gan)器、大数据、算(suan)法、高精度(du)地(di)图以(yi)及(ji)智(zhi)慧交通等一系列软硬(ying)件技术(shu),迎来引(yin)来传统主机厂、造车(che)新势力、Tier1、半导体制造商、及(ji)海内外科技龙(long)头(tou)公司如谷歌、阿里、百度(du)等的参(can)与。
尤(you)其是在(zai)诸多科技(ji)(ji)公司的(de)(de)投入下(xia)(xia),智能驾驶在(zai)越来越肥(fei)沃的(de)(de)技(ji)(ji)术(shu)土壤里变革(ge)成长,抛开硬核(he)难懂的(de)(de)技(ji)(ji)术(shu)名词(ci)不说,就大家当(dang)下(xia)(xia)比较关心(xin)的(de)(de)如何用智慧语(yu)音改善使(shi)用导航应用的(de)(de)体验,如何提升汽(qi)车自动驾驶的(de)(de)安全和智行能力等比较实际的(de)(de)场景落地问题,科技(ji)(ji)公司是如何用技(ji)(ji)术(shu)写下(xia)(xia)注脚的(de)(de)?
#01
语音助手越来越像真人
大家(jia)日常(chang)行驶总会(hui)用到手机(ji)导(dao)航(hang),享受(shou)一定(ding)便利的同时也会(hui)遇到一些麻(ma)烦,比(bi)如(ru)由于手机(ji)里软件语音(yin)播报导(dao)航(hang)信息时,总是识(shi)别不出用户说的话(hua)。前段时间,笔者自驾去郊区也遇到了这样(yang)的问题(ti),临时修改导(dao)航(hang)终点,安全(quan)起见(jian)只(zhi)能把车听到路(lu)边再操作。
行业专家对(dui)此也给出了一(yi)(yi)些专业解(jie)释(shi)。百度语音(yin)(yin)首(shou)席架构师(shi)贾磊表示(shi),在(zai)(zai)世(shi)界范围内,很长时间都没有一(yi)(yi)个(ge)方案能普(pu)适的(de)(de)(de)支持在(zai)(zai)手机(ji)上实现全双(shuang)工的(de)(de)(de)语音(yin)(yin)交互,即在(zai)(zai)手机(ji)播放(fang)导(dao)航提示(shi)的(de)(de)(de)同时,能够听清用户(hu)的(de)(de)(de)指令,就(jiu)像真人对(dui)话一(yi)(yi)样,可以(yi)被随时打断,对(dui)新的(de)(de)(de)语音(yin)(yin)指令给予(yu)反馈(kui)。因此,想要(yao)实现全双(shuang)工语音(yin)(yin)交互,必须先做回声消除,避免手机(ji)终端识别(bie)自己(ji)播放(fang)的(de)(de)(de)声音(yin)(yin)。
不(bu)过,这(zhei)一解决方案在前(qian)装软(ruan)件(jian)的(de)音箱、车载系统上比较容易实现(xian),可以(yi)通过硬件(jian)适配(pei)算(suan)法,提前(qian)保证回(hui)(hui)声(sheng)消除的(de)效(xiao)果。而(er)手(shou)机(ji)App属于纯软(ruan)件(jian)后装方案,需要(yao)让(rang)软(ruan)件(jian)算(suan)法适配(pei)不(bu)同(tong)型号(hao)的(de)终端硬件(jian)。而(er)手(shou)机(ji)终端款式多(duo),硬件(jian)参差不(bu)齐等(deng)因素叠(die)加(jia)在一起,会导(dao)致声(sheng)音信(xin)号(hao)的(de)回(hui)(hui)声(sheng)消除出现(xian)各种各样的(de)问(wen)题。再(zai)加(jia)上手(shou)机(ji)硬件(jian)的(de)迭代更新非常速,回(hui)(hui)声(sheng)消除效(xiao)果就更加(jia)难以(yi)保证了。
为解决手机场(chang)景(jing)下的回(hui)(hui)声(sheng)(sheng)消除问题,百(bai)度融合传统信(xin)号(hao)处理(li)和深度学习(xi)模型(xing)各自的优点(dian),基于语音(yin)识(shi)(shi)别(bie)目标,端(duan)到端(duan)地进行(xing)回(hui)(hui)声(sheng)(sheng)消除和信(xin)号(hao)增强,解决了手机场(chang)景(jing)下的回(hui)(hui)声(sheng)(sheng)消除问题:即使手机音(yin)量开(kai)到最大,回(hui)(hui)声(sheng)(sheng)消除量也能(neng)达到40分贝,使得手机APP的语音(yin)识(shi)(shi)别(bie)功能(neng)能(neng)够正常工作。
针对(dui)手机便携性导致语音(yin)(yin)交互中(zhong)面(mian)临的音(yin)(yin)乐(le)、闲聊、环(huan)境噪(zao)(zao)声(sheng)、内噪(zao)(zao)残(can)余等(deng)与(yu)交互内容(rong)无(wu)关的信息干扰问题(ti),降(jiang)低语音(yin)(yin)识别(bie)难(nan)度,百度研发了基于SMLTA2的多场(chang)景统一预训练(lian)模型,一个模型解(jie)决噪(zao)(zao)声(sheng)、用(yong)户口音(yin)(yin)和回(hui)声(sheng)消除(chu)残(can)余吸收等(deng)难(nan)题(ti),在各场(chang)景下(xia)识别(bie)率相(xiang)对(dui)提升超过20%,在业界同类技(ji)术中(zhong),准确率最高。
在全双工状(zhuang)态(tai)下(xia),除了能实现(xian)免唤醒词连续对话(hua)之外,还有一(yi)个非常关(guan)键的技术突破,称之为“拒绝(jue)反(fan)(fan)应(ying)”,即(ji)让(rang)导(dao)航能够判断出哪些话(hua)是针对导(dao)航的指令、哪些话(hua)是用户在聊天。如果判断某(mou)些话(hua)并(bing)非对相应(ying)指令,它便会“拒绝(jue)反(fan)(fan)应(ying)”,安静听、不插嘴(zui)。配合(he)语音语义一(yi)体化的置(zhi)信技术,这一(yi)套方(fang)案可(ke)以降低错误响应(ying),并(bing)且支(zhi)持交互过程中的引导(dao)和澄清,让(rang)人(ren)(ren)机交互更(geng)像人(ren)(ren)与人(ren)(ren)的交流(liu)。
百度在(zai)手机端实现全双(shuang)工语音交互后,下(xia)一步(bu)将用到更多产(chan)(chan)品,同(tong)时,语音产(chan)(chan)品产(chan)(chan)生的(de)(de)(de)新数据也将促(cu)进(jin)更多的(de)(de)(de)创新,“人(ren)(ren)(ren)(ren)工智能(neng)获(huo)得了眼睛、耳朵(duo)和无(wu)数其(qi)他感(gan)官,从而可以收(shou)集从来(lai)没有过(guo)的(de)(de)(de)新数据,随后使用这些数据推(tui)动(dong)更复杂的(de)(de)(de)流程自动(dong)化”。正如百度创始人(ren)(ren)(ren)(ren)、董(dong)事长(zhang)兼CEO李彦(yan)宏在(zai)《人(ren)(ren)(ren)(ren)民日(ri)报》发表的(de)(de)(de)《推(tui)动(dong)新一代人(ren)(ren)(ren)(ren)工智能(neng)健康发展(zhan)》文(wen)章中所说,人(ren)(ren)(ren)(ren)工智能(neng)正深刻改变着人(ren)(ren)(ren)(ren)们的(de)(de)(de)生产(chan)(chan)方(fang)式(shi)、生活方(fang)式(shi)、学习方(fang)式(shi),推(tui)动(dong)人(ren)(ren)(ren)(ren)类(lei)社会(hui)迎(ying)来(lai)人(ren)(ren)(ren)(ren)机协同(tong)、跨界融合(he)、共(gong)创分(fen)享的(de)(de)(de)智能(neng)时代。
#02
让自动驾驶比人类驾驶更安全
提到(dao)一款(kuan)车(che)的(de)智(zhi)(zhi)能程度(du),很多(duo)人首先(xian)想(xiang)到(dao)的(de)便是智(zhi)(zhi)能驾驶辅(fu)助和(he)智(zhi)(zhi)能车(che)联系统,也就是大家日常听到(dao)的(de)自动(dong)驾驶。如(ru)今中国自动(dong)驾驶产业不(bu)仅(jin)在技(ji)术和(he)应用(yong)上(shang)领先(xian),在市(shi)场上(shang)的(de)接受(shou)度(du)也逐渐增(zeng)高。
据(ju)市场调研机构J.D. Power发布(bu)的报告显示(shi),中国消费(fei)者(zhe)(zhe)对(dui)自动(dong)驾(jia)驶(shi)技术信心(xin)指数(shu)达(da)到了50分,远(yuan)高(gao)于美国消费(fei)者(zhe)(zhe)的36分,说(shuo)明中国消费(fei)者(zhe)(zhe)对(dui)自动(dong)驾(jia)驶(shi)的接受度更高(gao)。随着(zhe)智慧的车(che)和(he)聪明的路越来越多,如何(he)让自动(dong)驾(jia)驶(shi)比人类(lei)驾(jia)驶(shi)更安全是用(yong)户关注的一大(da)难题。
在自(zi)(zi)动驾驶领(ling)域(yu),传(chuan)统的图像空间感(gan)知方法是将汽车上的雷达、摄像头等不(bu)同(tong)传(chuan)感(gan)器(qi)采集来的数据分(fen)(fen)(fen)别进(jin)行(xing)分(fen)(fen)(fen)析(xi)运算(suan),把各项分(fen)(fen)(fen)析(xi)结果融合到统一的空间坐(zuo)标系中,去规(gui)划车辆的行(xing)驶轨迹。这个过程中,每个独立传(chuan)感(gan)器(qi)收集到的数据往往受(shou)到特定视角的局(ju)限,经(jing)过各自(zi)(zi)的分(fen)(fen)(fen)析(xi)运算(suan)后,融合阶段会导致误差叠加,无法拼凑(cou)出道路实际情况(kuang)的准确全(quan)貌,给车辆的决策规(gui)划带来困难(nan),继而会引(yin)发出一系列安(an)全(quan)问题。
近(jin)些年来,行业中提出了BEV(Bird‘s Eye View,视觉为中心的(de)(de)(de)俯视图(tu))自(zi)动驾(jia)驶感(gan)知(zhi)方案。不同于(yu)传统(tong)(tong)的(de)(de)(de)方式,BEV自(zi)动驾(jia)驶感(gan)知(zhi)就好比(bi)是(shi)一(yi)个(ge)从高处统(tong)(tong)观全(quan)局的(de)(de)(de)“上帝视角”,车上多个(ge)传感(gan)器采集(ji)的(de)(de)(de)数(shu)据(ju),会输入到一(yi)个(ge)统(tong)(tong)一(yi)模型(xing)进(jin)行整体分(fen)析推理生成鸟瞰图(tu),能有(you)效地避免误差叠加(jia)(jia);这种方案还能够做到时(shi)(shi)序融(rong)合(he),不仅(jin)是(shi)收集(ji)一(yi)个(ge)时(shi)(shi)刻(ke)的(de)(de)(de)数(shu)据(ju),分(fen)析一(yi)个(ge)时(shi)(shi)刻(ke)的(de)(de)(de)数(shu)据(ju),而是(shi)支持把过去一(yi)个(ge)时(shi)(shi)间片段中的(de)(de)(de)数(shu)据(ju)都融(rong)合(he)进(jin)模型(xing)做环境感(gan)知(zhi)建模,时(shi)(shi)序信(xin)息的(de)(de)(de)引入让(rang)感(gan)知(zhi)到的(de)(de)(de)结(jie)果更(geng)稳定,使得车辆对于(yu)道路(lu)情况的(de)(de)(de)判断更(geng)加(jia)(jia)准(zhun)确、让(rang)自(zi)动驾(jia)驶更(geng)安全(quan)。
即便如(ru)此,那些身处(chu)全球自动(dong)(dong)驾驶技术(shu)第一梯队的玩家并没(mei)有(you)止步(bu)于BEV自动(dong)(dong)驾驶感知方(fang)案,比(bi)如(ru)百(bai)度在业内(nei)(nei)提出(chu)车路一体(ti)(ti)的解(jie)决(jue)方(fang)案UniBEV,集成了车端(duan)多(duo)(duo)相机、多(duo)(duo)传感器的在线建图、动(dong)(dong)态障碍(ai)物(wu)感知,以(yi)及路侧视角下的多(duo)(duo)路口多(duo)(duo)传感器融(rong)合等任务,是业内(nei)(nei)首个车路一体(ti)(ti)的端(duan)到端(duan)感知解(jie)决(jue)方(fang)案。
基于统一的(de)BEV空(kong)间(jian),UniBEV 车(che)路(lu)一体大模型更容易实现多模态、多视(shi)角、多时(shi)间(jian)上(shang)的(de)时(shi)空(kong)特征融合(he)。百度(du)借助(zhu)大数据+大模型+小型化(hua)技术闭环,在(zai)车(che)端路(lu)侧(ce)的(de)动(dong)静态感(gan)知(zhi)任务上(shang)都取得了领(ling)先(xian)的(de)成绩,在(zai)北京高级别自(zi)动(dong)驾驶示范区,通(tong)过(guo)对主城区路(lu)口进行智能(neng)化(hua)升级改造(zao),自(zi)动(dong)驾驶在(zai)相关路(lu)口的(de)问题(ti)发生(sheng)频率降(jiang)低80%以上(shang)。
作为国(guo)内(nei)自(zi)动(dong)驾(jia)驶(shi)(shi)的(de)头部企业,百(bai)度一直高(gao)度重视并(bing)全面布局车路(lu)协同(tong)(tong)自(zi)动(dong)驾(jia)驶(shi)(shi),先(xian)后参与多项相关国(guo)家标准制定,率(lv)先(xian)推(tui)出Apollo Air计划,率(lv)先(xian)开源了全球(qiu)首个(ge)车路(lu)协同(tong)(tong)数据(ju)集(ji)DAIR-V2X,并(bing)持续在全球(qiu)范围内(nei)推(tui)进L4共享(xiang)无人车规模化测(ce)试运营。依托坚实的(de)AI技术底座,目(mu)前,百(bai)度自(zi)动(dong)驾(jia)驶(shi)(shi)技术泛化能力进步速(su)度超预期,落(luo)地(di)新城市技术交付时间仅需20天。
此(ci)前,百度还(hai)发布(bu)了Apollo自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)地(di)图(tu)(tu),强(qiang)调(diao)其具有知识(shi)增强(qiang)、分层多维、为自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)而生的(de)新一(yi)代地(di)图(tu)(tu)优势。目前,百度高(gao)(gao)精地(di)图(tu)(tu)构(gou)建自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)化率已达到96%,大幅解(jie)决(jue)了应用成本(ben)高(gao)(gao)的(de)问(wen)题。同时(shi)(shi),为保(bao)障自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)高(gao)(gao)安全性,Apollo 自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)地(di)图(tu)(tu)融合(he)车端感(gan)知数据与多源地(di)图(tu)(tu),实时(shi)(shi)生成在线地(di)图(tu)(tu),满足自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)过(guo)程(cheng)中实时(shi)(shi)更(geng)新的(de)需求(qiu),确保(bao)自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)安全。此(ci)外,为提升自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)舒适性,Apollo自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)地(di)图(tu)(tu)基于百度地(di)图(tu)(tu)1200万公里(li)的(de)领先路网覆盖范(fan)围及海量时(shi)(shi)空数据,结(jie)合(he)数亿司(si)机的(de)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)知识(shi)沉(chen)淀,构(gou)建全路网级别(bie)的(de)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)知识(shi)图(tu)(tu)谱(pu)。学习人类司(si)机经验,用驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)知识(shi)图(tu)(tu)谱(pu)为自(zi)(zi)(zi)动(dong)(dong)(dong)(dong)(dong)驾(jia)(jia)(jia)(jia)(jia)驶(shi)(shi)搭建进步(bu)的(de)阶梯。
此(ci)外,备受(shou)关注的芯片,也成为自(zi)动驾驶(shi)公司拥(yong)有自(zi)主可(ke)控技(ji)术的关键(jian)。百(bai)度(du)方面透(tou)露,百(bai)度(du)自(zi)研AI芯片昆(kun)仑芯2代已完(wan)成无人(ren)驾驶(shi)场景端到端性(xing)能(neng)适配,将(jiang)持续夯(hang)实百(bai)度(du)Apollo软(ruan)硬一体优(you)势。组合拳出击为中国自(zi)动驾驶(shi)行业写下最(zui)好的注脚。
#03
深度学习助力提升用户体验
上(shang)(shang)述关(guan)(guan)键(jian)技(ji)(ji)术不(bu)断持续提升的(de)(de)同时(shi),深(shen)度学习框架(jia)技(ji)(ji)术也(ye)在(zai)(zai)不(bu)断取得(de)突破。更(geng)(geng)直白的(de)(de)来讲,百度自动驾驶技(ji)(ji)术为(wei)了“预(yu)知未来”,需要(yao)把大量(liang)数据(ju)、以(yi)及数据(ju)之间的(de)(de)关(guan)(guan)联,构建为(wei)一(yi)张(zhang)“超大的(de)(de)图(tu)”,图(tu)的(de)(de)规模越(yue)大,那(nei)么一(yi)张(zhang)图(tu)里能表(biao)达(da)的(de)(de)信(xin)息量(liang)就会更(geng)(geng)丰富。机(ji)器通(tong)过对(dui)图(tu)中(zhong)各(ge)个(ge)(ge)节点(dian)的(de)(de)分析,找到更(geng)(geng)复(fu)杂(za)的(de)(de)关(guan)(guan)系(xi),就可(ke)以(yi)实(shi)现(xian)一(yi)定的(de)(de)预(yu)测。例如(ru),交(jiao)通(tong)路网上(shang)(shang)两个(ge)(ge)地点(dian),虽然它们在(zai)(zai)物理(li)上(shang)(shang)不(bu)相(xiang)连,但通(tong)过相(xiang)关(guan)(guan)性建模可(ke)以(yi)把两个(ge)(ge)具(ju)有相(xiang)似交(jiao)通(tong)规律的(de)(de)地点(dian)关(guan)(guan)联起来,从而构建更(geng)(geng)具(ju)准确性的(de)(de)预(yu)测。图(tu)的(de)(de)结构信(xin)息越(yue)丰富,相(xiang)应就能越(yue)好地建模交(jiao)通(tong)规律。
百度架构(gou)师胡晓(xiao)光表示,百度地图(tu)很早就(jiu)上线了通行时(shi)间预估功(gong)能,这个功(gong)能背后(hou)(hou)的(de)原理,是把路(lu)网(wang)中的(de)路(lu)口(kou)和道路(lu)组成(cheng)一张“交(jiao)通图(tu)”,基于(yu)这张“交(jiao)通图(tu)”,机器(qi)可以对交(jiao)通路(lu)网(wang)的(de)流(liu)量进(jin)行精细(xi)建模,然后(hou)(hou)就(jiu)具备了路(lu)况的(de)预测能力(li)。由数百亿节点和数百亿边构(gou)成(cheng)的(de)庞(pang)大(da)图(tu)对算(suan)(suan)法(fa)和算(suan)(suan)力(li)都提出了巨大(da)的(de)挑战,基于(yu)规则的(de)图(tu)计算(suan)(suan)方法(fa)已经无法(fa)完全适用,这时(shi)图(tu)神(shen)经网(wang)络(luo)算(suan)(suan)法(fa)就(jiu)发挥了关键作用,我们再(zai)通过(guo)扩大(da)图(tu)神(shen)经网(wang)络(luo)算(suan)(suan)法(fa)的(de)参(can)数量,对图(tu)的(de)特征(zheng)进(jin)行更完整(zheng)的(de)表达,从(cong)而达到了模型越大(da)效果(guo)越优的(de)极致表现。
当然(ran),数据规模(mo)和(he)模(mo)型参数规模(mo)的增大,带来了(le)计算成本更高(gao)、训(xun)练(lian)稳(wen)定性差、策略迭代周(zhou)期长等一系列问题和(he)挑战。由(you)此,基于飞(fei)桨(jiang)平(ping)台完成了(le)图神经网络架构(gou)的全新升级,为业界带来了(le)超大规模(mo)图学(xue)习训(xun)练(lian)技术PGLBox。
PGLBox是业界首个同时支(zhi)持复(fu)杂算法+超(chao)大(da)图(tu)+超(chao)大(da)离散模型的大(da)规(gui)模图(tu)学习训(xun)(xun)练(lian)技术,通过显存(cun)、内存(cun)、SSD三(san)级存(cun)储技术和训(xun)(xun)练(lian)框架的性能(neng)优(you)化技术,单机(ji)即可支(zhi)持百(bai)亿节点、数(shu)百(bai)亿边的图(tu)采样和训(xun)(xun)练(lian),并可通过多机(ji)扩展支(zhi)持更大(da)规(gui)模。PGLBox为百(bai)度业务创(chuang)新提供(gong)了广阔的空(kong)间,目(mu)前已经在智能(neng)交通、信息推荐(jian)、搜索等标杆场景实现落地(di),大(da)幅提升业务效(xiao)率(lv)和用户(hu)体验。
技(ji)术改变生活(huo),百(bai)度近年用技(ji)术为(wei)数字社会带来的(de)(de)变革和发展先机不止(zhi)于这三个(ge)(ge)方面,但(dan)可以肯(ken)定的(de)(de)是,随(sui)着AI正在(zai)逐步(bu)成为(wei)新基建的(de)(de)技(ji)术“底座”,助(zhu)力基建迈入“智(zhi)(zhi)造时代”,以深(shen)度学习平台加上大(da)模型为(wei)牵引的(de)(de)全行业智(zhi)(zhi)能化升级已拉(la)开帷幕(mu),在(zai)智(zhi)(zhi)慧生活(huo)的(de)(de)星辰大(da)海里,智(zhi)(zhi)能驾(jia)驶,仅仅是一(yi)个(ge)(ge)开始。