據(jù)博文
翻譯公司獲悉,“有木有、我勒個去、神馬都是浮雲(yún)”,這些網(wǎng)路流行語,如何能更正確翻譯?記者以“神馬都是浮雲(yún)”為例,百度翻譯為“Everything is nothing”,比較接近原意,而谷歌則翻譯成了“Horses are clouds of God”,基本不知所云。與百度翻譯比擬,谷歌翻譯顯著體現(xiàn)出當(dāng)?shù)卣Z系化不足的特點(diǎn)。而負(fù)責(zé)組隊實(shí)現(xiàn)百度翻譯技術(shù)攻關(guān)的則是百度基礎(chǔ)技術(shù)首席科學(xué)家王海峰。
2011年8月,在北京大學(xué)軟體與微電子學(xué)院2011級新生開學(xué)儀式上,王海峰以新任語言資訊工程系主任的身份,給新生們作了題為“互聯(lián)網(wǎng)時代的天然語言處理”的學(xué)術(shù)講演。至此,北大虛位以待2年之久的語言資訊工程系的系主任人選終於塵埃落定。
王海峰在電腦領(lǐng)域是一位元申顯著赫的人物。由於研究的凸起成就,2010年11月,王海峰當(dāng)選為“國際計算語言學(xué)學(xué)會(ACL)副主席,在ACL 近50年的歷史上,他是第一位當(dāng)選副主席的華人。
“這不僅是國際同行對我本人的認(rèn)可,也是他們對中國及華人學(xué)者在本領(lǐng)域貢獻(xiàn)的認(rèn)可,另外,這也是對百度這樣的中國企業(yè)的認(rèn)可。”王海峰表示。
王海峰和電腦結(jié)緣已經(jīng)有20餘年的時間。1989年秋,王海峰以優(yōu)異的成績考入哈爾濱產(chǎn)業(yè)大學(xué)學(xué)習(xí)電腦,就正式與電腦打上了交道。
王海峰告訴記者,他的父母都是上個世紀(jì)60年代的大學(xué)生,父親畢業(yè)于清華大學(xué),母親畢業(yè)于哈爾濱醫(yī)科大學(xué),受家庭、學(xué)校及附近環(huán)境的影響,他從小就立志成為一名科學(xué)家。
還在哈爾濱產(chǎn)業(yè)大學(xué)讀本科時,王海峰就已經(jīng)進(jìn)入機(jī)器翻譯這個佈滿挑戰(zhàn)的領(lǐng)域。在上碩士期間,僅用一年就開發(fā)出了當(dāng)時在國家“863”評測獲得第一的漢英機(jī)器翻譯系統(tǒng),並獲得了部級科技提高獎。
1999年初,從哈爾濱產(chǎn)業(yè)大學(xué)博士畢業(yè)時,已經(jīng)學(xué)有所成的王海峰成了良多單位、包括一些重點(diǎn)研究機(jī)構(gòu)爭搶的香餑餑。面臨眾多誘人的選擇,王海峰堅決地選擇了當(dāng)時剛剛成立不久的微軟中國研究院。2010年1月,王海峰加盟百度,開始了自己職業(yè)糊口生計的新篇章。
隨後,百度就組建了王海峰博士領(lǐng)銜的機(jī)器翻譯核心研發(fā)團(tuán)隊。因為百度擁有超大規(guī)模的雙語語料,作為機(jī)器翻譯領(lǐng)域的頂級專家,王海峰非常清晰這些雙語資源在機(jī)器翻譯中的價值。於是,對雙語語料的探測、抓取和處理,就成了百度機(jī)器翻譯團(tuán)隊初期的重要工作之一。
王海峰和他的團(tuán)隊抓取的雙語語料很快也達(dá)到了1000萬句的規(guī)模。但是很快題目相繼而來:翻譯品質(zhì)遠(yuǎn)比預(yù)期要低。例如“how old are you”這麼常用而簡樸的英文在網(wǎng)上卻被大量地翻譯為“怎麼總是你”,“好好學(xué)習(xí)、每天向上”這句大家耳熟能詳?shù)闹形?,在抓取歸來的語料中,大多數(shù)都被翻為了“good good study,day day up”。經(jīng)由1個多月的攻關(guān),王海峰和整個團(tuán)隊利用新的技術(shù)手段將1000萬語料過濾到400萬左右,大量低質(zhì)語料已經(jīng)在過濾中被淘汰,機(jī)器翻譯的品質(zhì)得到了大幅進(jìn)步。
從開始組建團(tuán)隊,到百度翻譯正式上線,僅用了1年多時間。如今依託于百度在中文互聯(lián)網(wǎng)技術(shù)上的上風(fēng),百度翻譯對中文網(wǎng)路語言有著獨(dú)特的應(yīng)對能力。
對王海峰來說,就百度而言,這還只是一個開始。由於除了機(jī)器翻譯,王海峰在百度還負(fù)責(zé)天然語言處理、資料收錄、資料採擷、機(jī)器學(xué)習(xí)、推薦與個性化、語音技術(shù)等支撐著百度各種產(chǎn)品的眾多基礎(chǔ)技術(shù),他也但願自己未來在這些領(lǐng)域的研究和產(chǎn)品開發(fā)中能夠有更大的成就。