牛津科學家讓人工智慧看電視學習讀唇,準確度比人類更高

牛津大學的科學家與 Google DeepMind 人工智慧部門合作,藉助 BBC 提供的新聞報導片段,成功讓人工智慧系統學會「讀唇」,就是在沒有任何聲音的情況下,通過嘴唇的形狀及動作識別出背後的話語。雖然準確率只有 50%,但考慮到專業的人類唇讀者12%的準確率,人工智慧顯然又一次勝過了人類。

(圖:Doctoroz)

為了協助開發這套系統,BBC 提供了大量新聞片段和對應的字幕。然後,研究者在一個人工神經網路(Artificial neural network)中整合了最先進的圖像和語音識別技術,利用新聞片段,讓系統開始學習讀唇。

 

語境分析

科學家稱這個人工智慧系統為「觀察-專注-拼讀」(Watch, Attend and Spell)。步驟看起來似乎很簡單,然而讓人工智慧學會唇讀並非易事。牛津大學工程系博士研究生 Joon Son Chung 解釋,英文中有些發音,如 mat,bat,pat,唇形極其相似。這種情況下,無論是專業的唇讀者,還是人工智慧,借助的都是上下文語境。

實際上,人工智慧所學習的,是分析同時出現的訊息,即唇形、詞語以及後文緊接著出現的詞語。由於系統學習的是新聞語言,現在已可以輕鬆地識別出「Prime」後面總是接「Minister」(首相),「European」後面接「Union」(歐盟)。但對於新聞主播不常使用的辭彙,系統識別起來仍然有一定的難度。

人工智慧透過觀察新聞片段學習讀唇(圖:BBC)

 

優勢明顯,但仍需較大改進

如前所述,雖然系統目前準確率高於人類,但仍然有缺點,其中之一便是準確率。科學家表示,增加系統的準確率將會是他們未來最主要的研究目標。

此外,系統目前只能對錄製好的完整句子進行唇讀,無法即時運行。Joon Son Chung 表示,他們希望讓系統學會即時唇讀,不過,這個挑戰的難度其實比提高系統準確率較低。

 

幫助失聰人士

雖然離實際應用還需進一步的改進,但失聰人士援助團體 Action on Hearing Loss 已表現出極大的關注。技術研究經理Jesal Vishnuram稱,人工智慧唇讀技術可以提高語音到文本的轉化速度和準確率,幫助聽障人士觀看電視,或者在嘈雜環境中聽清聲音。

牛津大學和慈善組織一致認為,人工智慧唇讀技術不會取代人類唇讀者。但在很多情況下,它將會成為輔助工具,提高人類唇讀者或語音識別技術的效率和準確性。

 

(本文經明日科學同意授權轉載「牛津科學家讓人工智慧看電視學習讀唇,準確度比人類更高」)

 

如需轉載、引用本篇文章,請先與我們連絡呦!
每一個都是支持「工業技術研究院」持續創作的能量!感謝您!!
※文章內容為作者個人觀點,不代表本站立場

關閉

著眼未來生活需求 智慧城市商機閃亮亮

全球水資源短缺,缺水問題日益嚴重,目前看來最佳的解決方法之一,就是利用科技方法處理使用過的水,將水循環回收再生利用。工研院「智能海水淡化系統」以智慧提取液材料結合獨特的滲透壓即時監測及高滲透壓端監控分離技術,使系統達到高效率、高穩定性與低耗能的目標。

閱讀更多 »

日本將用人工智慧來取代現有化學物質實驗與審查

根據《日本產經新聞》的報導指出,日本經濟產業省將使用人工智慧(AI)來縮短化學物質的安全審查時間。例如,在魚身上實施的化學物質累積程度試驗,未來將被人工智慧的實驗所取代,轉為利用電腦進行虛擬試驗。這樣的結果,預期在電子零組件和燃料電池等領域上,可以縮短化學物質從開發到商品化的時間,並降低成本,使其進一步提高企業的競爭力。針對該項計畫,日本經濟產業省將從 2019 年度開始分階段導入。

閱讀更多 »

賴治坊 帶領德芙生醫勇闖巴黎

成功掌握膠原蛋白流失的關鍵,科學技術也可以運用在美妝保養品上!工研院首家美妝新創公司德芙生醫科技,在創辦人賴治坊帶領下,以工研院的研發技術作為核心,自創美妝品牌,鎖定法國市場,期待讓全世界看見台灣美妝保養研發的實力。

閱讀更多 »
close-link