當人工智能學會“讀唇術”,究竟意味著什么

相較于大眾更熟悉的其他生物特征識別,教會人工智能“讀唇術”,究竟意味著什么?

3

去年10月2日,西甲賽場,皇家馬德里在主場被實力一般的埃瓦爾逼平,比賽結束后,主場球迷噓聲四起,夾雜謾罵,這惹惱了步入球員通道的當家球星C羅,他被媒體拍到小聲嘟囔著什么,就當C羅默認只有他自己知道在抱怨什么的時候,《阿斯報》請來的唇語專家告訴大家,C羅在說:“Qué poca calma!”,大致可以解釋為:“能不能安靜點!”

這并非“讀唇術”首次揭穿名人的唇語。另一個更著名的案例是,早在當年英國查爾斯王子迎娶卡米拉時,唇讀者就成功破解了伊麗莎白二世與兒子的低語,也讓女王糟糕的婆媳關系浮現在大眾眼前。所以公眾人物大概并不喜歡那些唇語專家(何況他們許多時候充斥著臆測成分)——但令C羅們遺憾的是,當人工智能在各領域漸次開放,在唇語識別上,機器也已經做的比人類好了。

從技術路徑上,唇語識別是一項集機器視覺與自然語言處理于一體的復合型技術:系統通過機器視覺從圖像中連續識別出人臉,提取口型的連續變化特征,隨即將連續變化的特征輸入到識別模型中,識別出講話人口型對應的發音,從而計算出可能性最大的表達語句。

人類費盡心力開發AI,當然不是為了滿足自身的窺私欲。事實上,讓機器習得“讀唇術”,在公共安全,軍事情報,身份識別和社會公益等領域,都藏匿著頗為重要的應用場景。

嗯,在人工智能即將大范圍落地的前夜,國內從業者扎堆涌入的,大多為語音識別,圖像識別,人臉識別,機器翻譯,無人駕駛,虛擬助手和個性化內容推薦等領域,相較這些聚光燈之下的落地場景,唇語識別相對冷僻。但常識是:人工智能未來將會出現一個數萬億美元的巨大市場,在面對具體乃至細碎的應用場景時,人工智能的細分程度,勢必如百年前的電力那般觸角龐雜。而廣袤的嫁接空間也意味著,從真實應用場景出發,人工智能領域會出現不少藍海市場,被國內巨頭忽視的唇語識別就是其中之一。

唇語識別在國外早有先例(譬如谷歌,后面會談到),但成熟的唇語識別系統需要建立在大量人臉特征樣本的基礎上,鑒于人種的生物特征以及語言特征區別,不能完全照搬國外系統。據悉目前這一技術在國內的領跑者是長期深耕于公安,交通,航空和軍工等領域的海云數據——他們訓練了超過1萬小時新聞類節目,用來判斷嘴型的準確度和語言的準確性。

那么問題是:相較于大眾更熟悉的其他生物特征識別,教會人工智能“讀唇術”,究竟意味著什么?

機器“讀唇術”

事實上,與人類天生擁有超強的面部識別能力不同(“臉盲”甚至被當做一種病),人類體內并無任何“唇讀”基因,任何人都需要枯燥的后天訓練,且很大程度上取決于對語境和語言本身的了若指掌。而如今,機器可以比唇語專家更精確地識別這個無聲的世界。

如你所知,更便宜的計算,更好的算法,以及更大的數據量,讓六十年來不斷幻滅又重燃希望的人工智能時代近在咫尺。其中最關鍵的變量就是數據量的井噴(許多深度學習基本模型在上世紀八九十年代就已出現,但數據的稀缺令這種偉大的基礎框架偃旗息鼓),海量數據是“喂養”多層神經網絡的飼料,也得以讓深度學習以一種非常精煉的算法模型解決了過去復雜的輸出模式。

唇語“語料”也一樣,為識別系統輸入海量優質數據顯得尤為重要。這里必須提及谷歌的人工智能公司DeepMind——要知道,去年在AlphaGo擊敗人類之后,DeepMind就把與人類的下一個競賽場切換至讀唇術上:他們與牛津大學的研究者使用總長超過5000小時(2010 年 1 月至 2015 年 12 月間的電視節目素材,如BBC 各類節目,總語句超過118000的新聞視頻)完成了對人工智能的訓練,然后使用 2016 年 3 月 至9 月間播出的節目進行測試——結果發現,給予相同的視頻素材,專業唇語識別專家能達到12.4%的正確率,而AI系統識別正確率則是46.8%,高出了大概3倍。

再看國內這邊,截至目前海云數據訓練新聞類節目時長是1萬小時(為什么是新聞類節目?當然是因為播音員的唇語最標準……)。據媒體報道,目前他們在英文方面可以達到80%的準確度,中文方面則是71%。當然,考慮到語音識別和人臉識別的準確率幾乎都達到95%以上,唇語識別真正投入實戰還尚需時日。

值得一提的是,中文自身的發音特性或許可以縮短唇語識別投入實戰的時間。拿普通話來說,一共有1270個發音,不考慮聲調差別,有近400個不同的發音,每個發音都有對應口型,中文發音較英文為少,一字一音,規律清晰,只要使用正確方法,中文唇語識別其實更易獲得高準確率。

事實上,唇語識別并非這家曾被比爾蓋茨造訪,行事卻頗為低調的數據運營商首次觸及AI領域,作為中國大數據可視化的領跑者,海云數據去年就已經通過“圖易大腦”觸及到了AI領域——要知道,大數據與AI本就是“魚水之歡”,可視分析底層就是計算機視覺,而計算機視覺在AI領域應用之一就是唇語識別。將AI與可視分析進行強捆綁,未來通過成熟的產品為客戶提供服務,勢必成為這家公司變現的催化器。另一方面,海云在可視分析領域長期的積淀,以及在公安等領域的數據積累和服務體驗,對于其研發唇語識別也提供了重要的助力。

唇語識別可以用來干什么

相比于唇語識別的技術路徑,人們更關心,它將用于何處。

不妨先說回那位讓女王糟糕的婆媳關系浮出水面的讀唇人,她叫杰西卡·里斯,是英國知名的“讀唇女王”,自幼失聰的她卻對唇語頗為敏感,就像偵探電影經常上演的那樣,杰西卡的“奇異功能”被官方所看重,英國皇家檢察院曾雇傭她成為英國唯一的“官方讀唇證人”,試圖通過她去解讀警方用監控攝像機拍下來的嫌犯錄像,從而提供關鍵證據。只可惜,杰西卡卻在后來遭遇了信譽危機,英國專家對其讀唇能力測試之后,證明她的讀唇其實經常出錯。

而如前所述,在唇語識別上,機器已遠超人類——并向95%以上的精準度狂奔而去,這意味著,杰西卡沒能做到的事,人們完全可以更加放心地交給機器。這也正是海云數據正在布局的。要知道,公安系統中視頻信息量頗為龐大,且在安全態勢和案情分析中發揮巨大作用,但它們很多都以“默片”方式存在(畢竟人物活動地點離攝像頭都有一定距離),只看得清嘴型,卻不知說些什么。針對于此,海云數據通過在人的嘴巴上部署諸多識別位點,通過位點判斷嘴型,判斷視頻中人所講出來的關鍵性內容,這無疑能巨大釋放視頻圖像里面的信息——換句話說,在人工智能的加持之下,海云的可視分析系統能夠從聲音,圖象,視頻,空間和地理信息等多重緯度,進行綜合態勢的判斷,可以大幅度豐富其現有的公共安全大數據一站式解決方案。

除了公共安全,在“私人”安全上,唇語識別技術也大有可為。你知道,當萬物互聯時代即將來臨,身份識別的下一篇章勢必由指紋,人臉,虹膜等生物識別技術替代,從而將人們與機器的信任關系提升一個安全系數。最直接的例子當然是安防。如今在上述常見的生物認證之外,“唇語密碼”也可作為重要方式:識別系統從嘴唇圖像列序中提取形狀,質地和動作等特征,通過訓練建立模型并確定臨界值,最終決定接受或拒絕密碼。畢竟,唇語擁有非常高的不可復制性(兩個人說同一句話,嘴唇動作特征完全不一樣),且不同于指紋和人臉這些靜態生物特征被盜取后無法重置,人們可以隨意改變唇語密碼。

除此之外,唇語識別在很多領域都可以帶來巨大福祉,誠如牛津大學研究員Yannis Assael所言:“我們相信AI唇讀是一種非常實用的輔助性技術,比如更智能的助聽器,不便出聲的公共場合,以及在嘈雜環境下精準的語音識別等。”

嗯,就拿海云數據來說,當其可視分析能力配之以人工智能,無疑會大幅提高在公共安全,軍事情報和殘障教育等領域的競爭力。舉例而言:通過唇語識別,讓無法開口說話的殘障人士“開口說話”;讓聽力障礙者和不少老年人更清晰地聽懂他人;而在軍事情報領域,唇語識別讓遠距離獲取情報成為可能。

可以預見,在未來,當古老的讀唇術被人工智能發揮到極致,希望世界會變得更好。

李北辰/文(知名科技自媒體,致力于用文字優雅的文章,為您提供談資與見識;微信公號:李北辰)

本文為錦鯉財經平臺原創文章,作者:李北辰,文章不構成投資建議,未經授權,嚴禁轉載。

發表評論

登錄后才能評論

聯系我們

?合作微信:youbigger

在線咨詢:點擊這里給我發消息

郵件:[email protected]

工作時間:周一至周五,9:30-18:30,節假日休息

麻将技巧快速提高法 广西快三规则 福建36选7中奖规则 王中王 追光娱乐二维码图片 天天红包赛有多少钱 赤赢配资 甘肃11选五组选怎么买 赵丽颖代言的领先团队 星悦内蒙麻将怎么安装 辽宁快乐12选5开奖 山东群英会助手 福建36选7开奖号码结果查询 河北快3遗漏数据分析 排列5彩票规律 大类配资 天津11选5 主页