近日,百度副總裁王海峰博士受美國問答網(wǎng)站Quora邀請回答網(wǎng)友提問,回答了頗具代表性的十個問題,覆蓋從中國人工智能的發(fā)展階段到百度工程師的日常工作狀態(tài),十問十答的形式,為美國網(wǎng)友打開了解百度,了解中國人工智能的一扇窗。
Quora是問答型SNS網(wǎng)站,被譽(yù)為“獲取高質(zhì)量內(nèi)容的來源地”,聚集了大量高質(zhì)量知識用戶。海峰受邀答疑的session上線后,大量海外網(wǎng)友關(guān)注,提問紛至沓來。
王海峰是百度搜索業(yè)務(wù)的負(fù)責(zé)人,同時還負(fù)責(zé)手機(jī)百度、百度信息流、百度新聞、百度手機(jī)瀏覽器、自然語言處理、知識圖譜、互聯(lián)網(wǎng)數(shù)據(jù)挖掘等業(yè)務(wù)。他是自然語言處理領(lǐng)域世界上最具影響力的國際學(xué)術(shù)組織ACL(Association for Computational Linguistics)50多年歷史上唯一出任過主席的華人,也是目前最年輕的ACL fellow,在人工智能領(lǐng)域有著重要影響力。此次參與網(wǎng)友問答,闡述他對人工智能及相關(guān)技術(shù)現(xiàn)狀和未來的理解,王海峰在答案中寫到,人類正在逐步進(jìn)入人工智能時代,而百度的優(yōu)秀工程師們將在其中發(fā)揮重要作用。
Quora問答為英文,以下為問答實(shí)錄的中文翻譯。
1、中國人工智能的現(xiàn)狀如何?
中國的人工智能正在高速發(fā)展。今年,中國政府工作報告中首次提到人工智能,這表明中國十分重視人工智能的發(fā)展。包括百度在內(nèi)的很多互聯(lián)網(wǎng)企業(yè)都在加大人工智能方面的投入。其中許多企業(yè)都設(shè)立了專門的部門,推動人工智能在各自業(yè)務(wù)中的研發(fā)與應(yīng)用。傳統(tǒng)企業(yè)也在利用人工智能降低成本,以人工智能為核心業(yè)務(wù)的創(chuàng)業(yè)企業(yè)也像雨后春筍般涌現(xiàn)。
此外,中國有許多大學(xué)和研究機(jī)構(gòu)也在開展人工智能方面的研究。近些年來,越來越多的優(yōu)秀科學(xué)家與學(xué)者們投入到人工智能領(lǐng)域,其中不乏業(yè)內(nèi)公認(rèn)的佼佼者。在今年的舊金山AAAI大會上,有大約三分之一的論文來自中國,比例與美國相當(dāng)。
人工智能不僅迅速應(yīng)用于各大行業(yè),也在改變?nèi)藗兊娜粘I?包括交通、教育、醫(yī)療等各個方面。我相信,人類正逐步進(jìn)入人工智能時代。
2、百度的機(jī)器學(xué)習(xí)團(tuán)隊(duì)會不會錄用不會講中文的人才?
百度已經(jīng)有不會講中文的員工,而且不光是機(jī)器學(xué)習(xí)團(tuán)隊(duì),其他團(tuán)隊(duì)也有。
3、自然語言處理技術(shù)在中文和英文上主要有哪些不同?
從語言學(xué)上來講,中文與英文截然不同。中文是孤立語,文本的詞與詞之間沒有空格,主要通過詞序來表示語法關(guān)系。這些因素加大了中文在詞匯、句法和語義層面消除歧義的難度。相比中文,現(xiàn)代語言學(xué)的概念與語法更適用于英文。
目前,大多數(shù)主流自然語言處理技術(shù)都同語言無關(guān),比如各種統(tǒng)計或神經(jīng)網(wǎng)絡(luò)的算法。我們會根據(jù)不同的應(yīng)用需求,對這些方法再進(jìn)行語言相關(guān)的優(yōu)化。
比如,百度在2015年5月推出了首個在線神經(jīng)機(jī)器翻譯系統(tǒng)。其核心的NMT模型是與語言無關(guān)的,可以得到相當(dāng)好的翻譯結(jié)果。為進(jìn)一步優(yōu)化翻譯效果,我們又根據(jù)具體語言的特征對翻譯系統(tǒng)進(jìn)行了優(yōu)化。
4、百度有沒有與IBM Watson或者Facebook的Wit.ai類似的可訪問的AIAPI?
請訪問ai.baidu.com,就可使用語音、圖以像、NLP、用戶畫像等百度人工智能技術(shù)。
5、未來十年里搜索引擎會有怎樣的發(fā)展?
現(xiàn)在一說到搜索引擎,大多數(shù)人會想到搜索框和搜索結(jié)果。那么未來的搜索引擎會是什么樣子呢?現(xiàn)在還不好說。但是我們都愿意看到更加強(qiáng)大的搜索引擎,能夠讓我們在任意場景和產(chǎn)品中利用視覺、聽覺甚至觸覺等交互形式搜索。搜索將會無處不在。
首先,對用戶意圖和內(nèi)容更加深入的理解,以及更加精準(zhǔn)的對意圖與內(nèi)容的匹配,都將大大增強(qiáng)搜索引擎的使用體驗(yàn)。理解用戶意圖不再僅依賴一次查詢,而是包括更加復(fù)雜的搜索上下文、時間、位置、設(shè)備和用戶的個性特征。而對內(nèi)容的理解也將大大深入,不僅能更好的理解語義、語境、觀點(diǎn),還能理解內(nèi)容的其他各個方面,從內(nèi)容中抽取出知識。意圖與內(nèi)容的匹配也將考慮上述所有因素,提供更加貼合個人特征與具體語境的搜索結(jié)果。此外,搜索引擎也會更像“應(yīng)答引擎”和“執(zhí)行引擎”,能夠直接回答問題或執(zhí)行用戶指令。
其次,搜索引擎與用戶的交互界面也將有更多創(chuàng)新變化。除鍵盤輸入外,還將更加廣泛地使用語音和圖片等輸入方式。隨著語音、圖像等技術(shù)更加成熟和實(shí)用,用戶將可以使用更加高效、便捷的多模搜索。自然語言交互將成為搜索引擎的主流交互模式。用戶可以與搜索引擎對話,直接告訴搜索引擎他們的需求,這比打開鍵盤輸入要方便實(shí)用得多。用戶可以通過多輪對話與搜索引擎交互,百度是最早嘗試運(yùn)用這種全新的交互方法提升用戶搜索體驗(yàn)的公司之一。
第三,搜索將不僅僅是使用搜索引擎,還會融入到各種產(chǎn)品中。比如說,搜索將成為智能硬件產(chǎn)品的核心功能。未來,搜索將無處不在,隨處可見。而且,我們還將重新定義可搜索的內(nèi)容,不僅包括當(dāng)前搜索引擎已經(jīng)索引的內(nèi)容,還將納入更多服務(wù)、物體、設(shè)備和數(shù)據(jù)。
搜索引擎已是大家日常生活中必不可少的工具。用戶需求決定搜索引擎的發(fā)展方向,而技術(shù)進(jìn)步?jīng)Q定了搜索引擎的發(fā)展高度。
6、百度產(chǎn)品如何應(yīng)用NLP?
百度研發(fā)了多種NLP技術(shù),包括知識圖譜、語義理解、內(nèi)容標(biāo)簽、情感分析、文本生成、摘要、深度問答、機(jī)器翻譯和對話系統(tǒng)等。這些技術(shù)廣泛應(yīng)用于百度的搜索、信息流、智能助手等產(chǎn)品中,為數(shù)億用戶提供服務(wù)。我們還將這些技術(shù)集成到統(tǒng)一的平臺之中,名為NLPC平臺。NLPC平臺提供二十多個NLP模塊和技術(shù)解決方案,為百度產(chǎn)品提供全方位支持。我們的NLPC平臺每天有上千億次請求。
比如在搜索上,分詞、命名實(shí)體識別、句法分析和復(fù)述等NLP模塊都是其必不可少的基礎(chǔ)模塊。這些模塊一直在根據(jù)應(yīng)用需求優(yōu)化并實(shí)現(xiàn)技術(shù)突破。另一個NLP技術(shù)在搜索中的典型應(yīng)用是問答。高性能的問答系統(tǒng)需要對查詢實(shí)行精準(zhǔn)的語義語法分析,構(gòu)建大規(guī)模知識圖譜,以及對網(wǎng)頁搜索結(jié)果全面深入的分析。用戶在搜索框中輸入問題,搜索引擎就可以直接提供答案。很多用戶會使用搜索引擎查找相關(guān)信息,來幫助做出決策。在這種情況下,情感分析(即觀點(diǎn)挖掘),可以抽取出很多候選觀點(diǎn),聚合后提供給用戶作為決策參考。
再比如在信息流產(chǎn)品中,文章質(zhì)量十分重要。NLP技術(shù)用于甄別并去除謠言、剽竊等垃圾文章。另外,文本分析可以識別出高質(zhì)量文章,并為文章打上描述其質(zhì)量的標(biāo)簽。從各個層面說明用戶偏好的用戶模型也要用到NLP技術(shù)。
總而言之,對于各種與語言相關(guān)的產(chǎn)品,NLP技術(shù)都是必不可少。
7、你如何看待自己從科學(xué)家到互聯(lián)網(wǎng)公司業(yè)務(wù)副總裁的職業(yè)轉(zhuǎn)變?
我熱愛技術(shù),并且喜歡投入到技術(shù)研究中去。我相信技術(shù)可以改變世界。百度為我提供了一個理想的平臺,在這里,我的技術(shù)工作得以快速、直接地惠及用戶。這就是我加入百度的首要原因。我在百度的前幾年負(fù)責(zé)包括NLP、語音、圖像、數(shù)據(jù)挖掘、知識圖譜、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等在內(nèi)的技術(shù)團(tuán)隊(duì)。后來,我意識到偉大的產(chǎn)品是連接技術(shù)和廣大用戶的橋梁,并能推動技術(shù)進(jìn)步。偉大的產(chǎn)品不僅需要先進(jìn)的技術(shù),更需要出色的產(chǎn)品設(shè)計、運(yùn)營和高效管理。因此,我逐步從只帶技術(shù)團(tuán)隊(duì)轉(zhuǎn)變?yōu)槿娴臉I(yè)務(wù)管理者。我現(xiàn)在的團(tuán)隊(duì)超過3000人,包括技術(shù)、產(chǎn)品、運(yùn)營等各方面人才,他們年輕、充滿活力、富有激情。我們同心協(xié)力,致力為用戶提供更好的技術(shù)和產(chǎn)品,進(jìn)而使人們的生活更美好。
在管理大型綜合業(yè)務(wù)團(tuán)隊(duì)時,首先要設(shè)定戰(zhàn)略和目標(biāo),然后組建合適的執(zhí)行團(tuán)隊(duì)。良好的制度和文化對于一個大團(tuán)隊(duì)來說非常重要,這是業(yè)務(wù)健康發(fā)展的支持和保證。與此同時,我會始終關(guān)注技術(shù)突破,用戶需求的演變以及整個社會環(huán)境的發(fā)展變化。
8、“百度”這個詞的意思是什么?
我們的名字“百度”,其靈感來源于800年前中國宋代的一首詞。“......眾里尋他千百度,驀然回首,那人卻在燈火闌珊處。”百度的字面意思是“數(shù)百次”,代表對理想的不懈追求探索。
9、在未來5到10年,我們將在自然語言處理領(lǐng)域看到哪些進(jìn)步?
在機(jī)器翻譯、語義理解、問答和對話技術(shù)方面將會有重大突破。而且這些技術(shù)將被廣泛應(yīng)用,使得人與計算機(jī)之間、人與各種智能硬件之間以及人與人之間的溝通和交互方式都會發(fā)生改變。
上述技術(shù)進(jìn)步將受益于以下四個方面的技術(shù)進(jìn)展:大數(shù)據(jù)、學(xué)習(xí)機(jī)制、知識圖譜、推理和規(guī)劃。
大數(shù)據(jù)——隨著互聯(lián)網(wǎng)的持續(xù)蓬勃發(fā)展,數(shù)據(jù)的數(shù)量和類型都在高速增長。即便是那些傳統(tǒng)行業(yè)也開始把他們的數(shù)據(jù)遷移到線上,一切都在線上被連接起來。數(shù)據(jù)的價值隨著物聯(lián)網(wǎng)發(fā)展會越來越大。
學(xué)習(xí)機(jī)制——學(xué)習(xí)機(jī)制也將持續(xù)進(jìn)步,使我們能從更大規(guī)模數(shù)據(jù)中學(xué)習(xí)到更多知識。
知識圖譜——有了更大規(guī)模數(shù)據(jù)和更強(qiáng)大的學(xué)習(xí)機(jī)制,我們可以構(gòu)建更完善更龐大的知識圖譜,對整個現(xiàn)實(shí)世界進(jìn)行建模。
推理和規(guī)劃——有了更完善更龐大的知識圖譜,我們可以在推理和規(guī)劃方面取得突破,推理和規(guī)劃的能力將使自然語言處理系統(tǒng)變得更加智能。
10、百度工作的工程師是怎樣的?
百度工程師的典型工作狀態(tài)是這樣的:坐在工位戴上耳機(jī)一寫代碼就是數(shù)個小時;在會議室或休息室與其他工程師一起討論技術(shù)問題或系統(tǒng)設(shè)計。你會看到他們一邊在餐廳吃午飯或晚餐,一邊在互相談?wù)撍惴▋?yōu)化;你會看到他們工作到深夜,廢寢忘食。
這里的工程師有他們自己鮮明的風(fēng)格:務(wù)實(shí)、自驅(qū)和負(fù)責(zé)到底。我們鼓勵工程師將想法付諸實(shí)踐,有激情,有毅力,有責(zé)任感,能使夢想成真。百度搜索引擎每天為數(shù)億人提供服務(wù)的同時,也使百度工程師能更好理解大多數(shù)用戶的需求,進(jìn)而有機(jī)會專注于最有價值的問題,并提出創(chuàng)新解決方案。百度作為一個平臺,支持這有才華有熱情的工程師實(shí)現(xiàn)他們的夢想。
年輕的工程師也有機(jī)會去豐富自己的愛好,業(yè)余時間可以在健身房和瑜伽室進(jìn)行鍛煉。
在百度,我們?yōu)槊總新入職的工程師提供導(dǎo)師計劃。導(dǎo)師會指導(dǎo)提升他們的技術(shù)能力,并幫助他們熟悉公司。我們?yōu)楣こ處熖峁┰诰學(xué)習(xí)課程,還有資深高工的技術(shù)講座。工程師可以選擇自己感興趣的話題,了解前瞻技術(shù)進(jìn)展。我們定期舉辦黑客馬拉松,鼓勵工程師大膽思考,與產(chǎn)品、設(shè)計等不同角色合作,創(chuàng)造出驚艷的產(chǎn)品。
我相信百度是工程師鉆研技術(shù)、提升自己最好的平臺之一。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...