微軟Skype Translator的過去、現在和將來

微軟Skype Translator的過去、現在和未來

只會說中文的人和只會說英語的人怎麼能交流呢?微軟本月初在中國市場發布了Skype Translator中文預覽版,還真幫那些不會中文或者英文的人實現了實時交流。

作為一個英語專業的學渣,聽到這個消息簡直整個人都不好了,我聯繫了微軟亞洲研究院自然語言計算組首席研究員周明博士,聊了聊Skype Translator中文預覽版的前世、今生和未來。

Skype Translator中文預覽版誕生記

別小看了Skype Translator,微軟這個產品的背後,其實是整個科技界近50年集體智慧的結晶,背後涉及到了加密代碼的思想、機器學習的突破、深層神經網絡的技術進步、語音合成技術的發展等。

故事還要從2012年說起。微軟研究院創始人里克•雷斯特(Rick Rashid)博士在天津的“21世紀的計算”大會上,現場演示了中英文的實時語音翻譯(亮點在視頻第8分鐘以後)。里克博士每說一句英文,機器就會以合成的里克博士的口音,同聲傳譯成中文。後來這段視頻也在網上被廣泛的傳播。其實,這背後原始技術主要來自微軟亞洲研究院,包括了語音識別、機器翻譯、語音合成等三大部分。

這次演示的成功,讓微軟決定將其產品化,調動了中美兩地的相關研發團隊,開始了長達兩年的研發。

在美國微軟研究院的機器翻譯產品開發團隊的工作就是做好一個通用的機器翻譯訓練平台,支持各種語言對的翻譯系統的訓練、測試和實施。微軟分佈在北京、埃及等各地的團隊將自己負責的語言對的翻譯系統做好之後可以直接對接上來。該團隊除了要負責軟件架構的設計、測試,還要負責用戶體驗,比如說語音、翻譯、語音合成的體驗,還有速度、空間的考慮等。“他們把這個平台都做得非常好”,採訪時周明博士對美國團隊給出瞭如是評價。

微軟Skype Translator的過去、現在和將來

周明博士率領的微軟亞洲研究院自然語言計算組,在北京一直努力提升中英語機器翻譯的質量。除了這個組,還有語音組的同事們,跟微軟在太平洋兩岸的有關產品部門合作,不斷努力提升語音識別和語音合成。這其實也正好對應了用機器做翻譯的幾個主要環節——語音識別、文本校正、機器翻譯、語音合成。

做這個項目時,周明已經在微軟工作了13年。團隊裡還有四位博士,“其中兩位都是長期從事機器翻譯,有十年左右的功力了;還有一位是畢業三年的博士,一位是剛剛畢業的博士。他們分別做數據挖掘、語言模型、翻譯模型、解碼各個方面的實驗,也有人專門去做系統,再把這些模型集成在一起,實現一個端到端(end to end)的翻譯過程。”

他們還要負責語音識別結果的調整,高大上的說法叫“語音識別文本的正則化”。主要是斷句、消除語音識別的噪聲,處理各種口語的現象。此外,還需要對接整個翻譯系統,確保整個翻譯結果最優。

這個可以輕描淡寫的“機器翻譯”的過程,背後卻是困難重重。周明博士說,這其中涉及到三項關鍵技術:第一是需要超大規模的雙語對照的語料庫;第二,需要研究良好的機器學習方法,做好語言模型、翻譯模型、調序模型;第三,在指數級的候選集裡,以效率最高的一種搜索方法找到最佳的譯文。

Skype Translator中文預覽版使用的語料庫擁有數億對的中英雙語對照句子,比任何翻譯大師一生中見過的翻譯要多得多得多,用於訓練翻譯模型。除此之外,還有百億句子的單語語料庫,可用於訓練語言模型。這是自然語言計算組通過大規模網絡挖掘建立起來的。學習了詞彙之間的翻譯概率和短語之間的翻譯概率。為了加大訓練數據,他們也收集了散落在互聯網上的UGC內容,譬如各種論壇等。將其中正確率高的東西挑出來,去粗取精。此外,團隊還購買了很多專業領域的語料庫,譬如技術領域、人文領域的的語料數據。

雖然所有語言都有自己的難點,但中文是意合語言,語序表靈活,省略現象嚴重,比起英語和日語等語言,缺少形式標誌。這期間還真遇到了不少問題。第一個是斷詞,很多西方語言基本上不需要斷詞,中間都有空格;第二個是詞性,中文的詞性從來沒有嚴格定義過,比如說英文、日文裡都是很清楚的,這是名詞型,這是動詞型,但中文裡很難從詞本身斷定詞性。;第三個是語序,中文的詞序是比較靈活的,比如“我吃飯”、“飯我吃”,都能被理解。第四個是中文隨時可以組詞,任何兩個字湊到一起都是一個詞,電腦裡面有多少詞都永遠不夠,你很難區分出“中巴友誼萬古長青”,到底這是“巴西”還是“巴基斯坦”。此外,中文的上下文連貫,省略得特別嚴重,有時候動詞、形容詞都省略了。這些問題使得中文的翻譯真不容易。周明博士表示,“我們組雖然做了那麼多努力,也沒有說能完全解決,依然有很多新的問題等待我們進一步解決”。

微軟Skype Translator的過去、現在和將來

Skype Translator中文預覽版的未來

過去一兩年,因為深層神經網絡,語音識別取得了飛躍進展,未來取得突破困難重重,但機器翻譯則方興未艾。微軟亞洲研究院自然語言計算組現在也在多方嘗試,包括深度學習的方法,直接進行翻譯解碼,希望取得突破。

在周明博士看來,在中英語間的機器翻譯領域,最有可能取得突破的還是這樣幾個方面:

第一,如何由單句變成考慮上下文的翻譯。現在Skype Translator都是一句句的翻譯,其實它翻第N句的時候,沒有考慮N-1句的翻譯。舉個簡單的例子,比如“driver”這個詞,可以翻成司機,也可以翻成驅動程序。假設上面已經翻成驅動程序了,下面說“I want a driver”,有的時候機器依然會傻傻地翻成“我還需要一個司機”。所以第一個是如何由單句翻譯進入到考慮上下文的篇章級的翻譯,將會是一大突破。這個目前學術界也比較關心。

第二,語音識別之後它有很多的噪音現象。原來做機器翻譯的人,基本不考慮噪音,都假設句子完全正確,預處理、分詞、正則化、補全等做的都不多。這也是他們目前正在做的。

第三,機器翻譯的本地化。在中國不同的城市,有些詞彙的翻譯也是很微妙的,現在是大一統的翻譯。就像有各地的離線地圖包一樣,未來可能會存在一個語言地圖,任何一個城市都有一個語言地圖,到天津去就下載一個天津的語言地圖。

第四,個性化。不同領域的人用Skype Translator,他們心裡是有不同的詞彙表,也有不同的領域傾向。微軟也很想了解用戶的特點,使得翻譯更貼近他本人的需要,比如說用戶是石油領域的人,他整天用Skype開會,那就盡量用這個領域的詞彙表達出來。

仔細想想,這個過程和搜索還是很像的,機會可以完全對應,要做到跟時間、地點、人物能夠對應上,還要個性化。

創作者介紹

學承電腦逢甲分校

學承電腦逢甲分校 發表在 痞客邦 PIXNET 留言(0) 人氣()