巨頭暗戰智能語音交互,實時翻譯為何成又一個風口
文章推薦指數: 80 %
進入2016年,各大科技巨頭、投資公司、分析機構等都在不斷發布、解讀著關於人工智慧( Artificial Intelligence)的各種消息,作為吃瓜群眾的我們由此也逐漸知道了很多高大上的「黑科技」。
比如谷歌、百度在幹著一件「人工智慧+汽車」的大事,即無人駕駛;蘋果、微軟、搜狗等致力於將人工智慧技術與語音服務場景結合,今年8月,搜狗推出全新語音交互引擎「知音」;此外,IBM花了大約250億美元來收購和完善Watson系統,希望靠人工智慧來預測未來,並應用於金融、交通、教育等領域;阿里巴巴、螞蟻金服在積極探索人臉識別,希望利用人工智慧讓移動支付更加便捷和安全。
處於風口的人工智慧,甚至也出現在了好萊塢劇本中,迪士尼動畫《超能陸戰隊》中的機器人大白就是個典型的「人工智慧+醫療」的產物,它就像醫療伴侶,能夠快速掃描、檢測出人體的不正常情緒或受傷並對其治療;就連時下爆紅的HBO連續劇《西部世界》也在探討著擁有自主思維的機器人與人類世界發生的種種衝突和對抗。
儘管在預言家的口中,人工智慧將在未來的現實生活中無孔不入,無人駕駛、機器人管家、人工智慧醫療方案等等,但目前對於大眾而言,我們當下階段接觸到人工智慧最主要的方式,仍是網際網路科技公司提供的一些基礎性服務,比如搜索、輸入法、導航等產品中。
在其背後,我們都發現了語音交互的影子。
事實上,智能語音交互已經成為各大網際網路巨頭角逐的關鍵性領域,因為說話是人們生活最常用到的溝通方式,隨著移動網際網路的深入,智能語音交互日益成為用戶的痛點。
從語音識別到實時翻譯,人工智慧較量升級
智能語音識別是包括谷歌、搜狗、訊飛等科技公司深耕的重要語音技術,從概念上來看,語音識別是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術,其應用於智能終端則可以帶來更便捷的服務,比如語音輸入、語音撥號、語音導航、語音拍照等。
麻省理工科技評論認為,「語音識別將成為人機互動的重要方式。
」
在人們印象里,智能語音識別的代表性產物莫過於微軟Cortana 、蘋果Siri等語音秘書類產品,它們儘管使用便捷,但在應用場景和實用性上卻有不少的限制。
因此,語音識別作為一項重要且基礎性的人機互動技術,如何更好的滿足更多的應用場景,同時具備很好的實用性,也成為語音巨頭們競相突破的關口。
在剛剛結束的烏鎮世界網際網路大會上,搜狗公司CEO王小川就展示了在智能語音交互領域的最新成果——語音實時翻譯。
通過該技術,搜狗 CEO 王小川的中文講話內容被實時識別為文字並翻譯為英文在螢幕上顯示,將王小川關於人工智慧專業領域的報告進行機器同傳。
例如,當王小川說到「搜索的未來就是人工智慧時代的皇冠」時,螢幕上實時顯示出了「In the future, search will be the Crown of the AI Era」,機器還能隨著語句的逐漸完整,根據語義自動修改調整之前識別的內容。
這也是全球首次基於神經網絡的實時機器翻譯技術在大型活動上的展示,可謂是「技驚四座」。
王小川透露,這次推出的語音實時翻譯,融合了業界領先的端到端神經機器翻譯技術以及基於實例的翻譯技術,基於大數據和深度學習,涵蓋了搜狗自主研發的語音識別、機器翻譯兩項重要技術,翻譯的結果比傳統機器翻譯更加流暢,效果更好。
無獨有偶,在搜狗實時翻譯發布僅過了兩天,國內另一家語音巨頭科大訊飛也在其發布會上展示了包括語音聽寫、實時互譯、車載語音交互系統等語音交互成果。
在筆者看來,搜狗和訊飛在語音實時翻譯技術的成果,反映了國內語音巨頭在人工智慧領域的較量正在升級,且都在用戶場景和實用性上做更大的突破,可以認為是代表了國內該領域的最高水平。
兩家公司在技術上孰高孰低,目前尚無定論。
從目前看來,搜狗對於語音技術的應用,更加to C(用戶),訊飛語音則to B(企業)多一些。
搜狗的優勢在於不僅擁有大量的數據資源、龐大的用戶量,也擁有完善的搜索、輸入法、地圖導航等產品布局,因此搜狗語音技術更能直面用戶的實用性需求;訊飛則擁有更廣泛的開發者、廠商合作關係,其語音解決方案將主要通過廠商合作或銷售方式應用於車載系統、教育、家居、機器人等領域。
基於深度神經網絡實時翻譯如何實現
在搜狗、訊飛相繼展示語音實時翻譯成果後,外界紛紛驚呼這種技術甚至將會顛覆專業同聲傳譯從業者的飯碗,同時對於其背後的技術原理尤為感興趣。
目前在網際網路上,關於訊飛實時互譯技術背後的原理解讀仍然較少,搜狗則在近期一場媒體溝通會上,主動揭開了搜狗實時翻譯技術的神秘面紗。
搜狗語音交互中心技術負責人陳偉介紹,傳統機器翻譯所採用的主流方式叫「統計翻譯」,從語料庫大量的翻譯實例中自動學習翻譯知識,然後利用這些翻譯知識自動翻譯其他句子。
這就需要把整個建模流程分成對齊模型、分層模型等多個模型,每個模型完成特定的很小的功能,最後串起來完成複雜的機器翻譯系統。
在這個過程中,每個模型的錯誤也會不斷疊加。
搜狗語音實時翻譯,在實現路徑上不同於傳統機器翻譯,它使用的端到端神經網絡翻譯模型通過編碼端獲取源端句子的分布式表示,利用注意力模型聚焦源端,使用循環神經網絡生成翻譯結果,準確率可以提升30%-40%。
從系統框架來看,主要包括「發音」、「語音斷句」、「語音識別」、「文本斷句」、「機器翻譯」、「輸出判斷」等若干部分。
從實用效果來看,在近期人工評測中,搜狗機器翻譯在演講、旅遊、閒聊、日常口語等領域,採用五分制人工評分能達到 4.4 分,逐步走向實用化。
陳偉透露,目前搜狗語音識別準確率已超過97%,識別速度達到了400字每分鐘,語音輸入日頻次高達 1.9 億次。
搜狗將該實時翻譯技術命名為SNMT(Sogou Neural Machine Translation),這不免讓人將其與谷歌的GNMT(Google Neural Machine
Translation)聯繫一起。
今年9月,谷歌宣布,網絡和移動版的谷歌翻譯將使用新的神經機器翻譯系統,並以GNMT命名,它能讓翻譯系統不再像以前一樣逐字逐句的翻譯,而是根據整篇文章的大意來對句子進行分析。
在新技術使用後,翻譯錯誤可減少 60%及以上。
陳偉介紹,兩者的基本構架有類似的,但還是有著相當大的差異。
谷歌神經網絡機器翻譯使用了一個深度的長短時記憶神經網絡,該網絡含有8層的編碼器和解碼器,而搜狗目前最多只有 5 層。
在我看來,這就意味著谷歌需要投入更多的資源和人力來攻克更為複雜的架構(當然潛力也更為巨大),而搜狗在反應速度上將更具有優勢,目前它的延遲只有 2 秒,而在準確性上,搜狗由於已經通過搜狗語音積累了大量中國人的口語語音數據,也可以一定程度上彌補由層數所造成的劣勢。
結語
從全球人工智慧的發展和趨勢看,圍繞智能語音交互誕生的成果無論從數量和實用性上看,仍然是其他人工智慧領域所不能比擬的。
隨著語音實時翻譯技術的成熟,它將可能應用於更多的生活和工作領域,但它也只是人工智慧真正改變世界的一個節點而已。
未來暢想的無人駕駛、遠程醫療、機器人管家也許終將有一天會變成現實,他們也都離不開語音交互這個重要關口。
#歡迎關注我的原創科技自媒體 「網際網路隨筆」,請搜索微信公眾號:netnotes#