識別方面,百度提出流式多級的截斷注意力模型SMLTA,這是國際上首次實現局部注意力建模超越整句的注意力模型,也是國際上首次實現在線語音大規模使用注意力模型。
SMLTA在大幅提升識別速度的同時,也提高了識別準確率。在輸入法有效產品相對準確率提升15%,音箱有效產品相對準確率提升20%.合成方面,針對現階段面臨風格遷移、音色模擬和情感擬人的三大挑戰,百度推出語音合成技術Meitron,可以將語音中的音色、風格、情感等要素映射到不同的子空間,在使用時,不同要素可以任意組合,靈活的控制合成語音的風格。同時降低語言合成門檻,僅需20句話就可以制作一個人的專屬聲音。
對于落地應用正在端側呈現出巨大需求,百度大腦語音團隊研發出一款針對遠場語音交互打造的芯片--百度芯片。芯片采用"軟件定義芯片"的全新設計思路。該芯片采用雙核HiFi4架構,2.8M大內存,臺積電40nm工藝,在此硬件規格上,100mw左右平均工作功耗,即可支持遠場語音交互核心的陣列信號處理和語音喚醒能力。同時,按照車規級標準打造的芯片,可為車載語音交互,以及智能家居等場景帶來更大想象力。芯片流片的同時,即實現了量產。
百度視覺技術部、增強現實技術部總監,5G時代,越來越多物理設備將連接到高可靠、低延時的網絡空間,這將徹底改變人們與環境及設備的交互方式。本次全新發布視覺語義化平臺2.0,正在推進視覺技術由"看清看懂"向"交互"進行升級。視覺語義化平臺2.0在交互升級和軟硬件結合兩大方面實現突破。
交互升級包含一體化人機交互系統和大場景物理世界交互系統。簡單而言,一體化人機交互系統是人與機器、虛擬環境的自然交互與融合,該系統適用于實現AR特效的直播、小視頻、特效小程序等場景,已應用于百度多款視頻App.大場景物理世界交互系統是將視覺定位與AR技術突破性結合,實現大范圍的虛擬信息與物理世界的精準疊加,從而建立起AI時代全新的交互系統。
目前,軟硬件結合可以滿足應用場景更高效的視覺計算,以及更低延時的體驗,同時能保護數據隱私。百度視覺方面的軟硬件結合主要聚焦于模型壓縮平臺PaddleSlim、多模態FaceID開發組件以及軟硬件一體解決方案AI相機三部分。FaceID覆蓋設備量已超1200萬臺。
視覺語義化平臺2.0更新了許多先進的感知技術,也讓機器人技術實現新突破。百度三維視覺首席科學家楊睿剛介紹,機器人就是一個智能體,除了感知技術,智能體需要決策和動作相關的技術,實現從環境感知到主動感知。
目前,百度研究的智能體技術主要集中在自動駕駛Apollo、工程機械和服務機器人三大方面。上午主論壇中引人關注的機械臂"茶博士"不僅能說會道,還完成了傳統的長嘴壺倒茶工作,其背后依靠的正是服務機器人方案。
網站名稱:百度算法是怎么進行全方位升級的
文章位置:http://m.newbst.com/news39/28589.html
成都網站建設公司_創新互聯,為您提供微信小程序、微信公眾號、商城網站、搜索引擎優化、全網營銷推廣、標簽優化
廣告
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源:
創新互聯