阿里開發(fā)AI謠言粉碎機(jī) 謠言識(shí)別準(zhǔn)確率達(dá)81% 判斷一個(gè)新聞?wù)婕僦恍枞?還可識(shí)別論文是否抄襲全球AI 人才分布情況[圖]

AI 2019-04-01 01:40

昨天，一篇《為拯救爸媽朋友圈，達(dá)摩院造了“謠言粉碎機(jī)”》的文章，在朋友圈刷屏，引來(lái)一片鼓掌叫好：“這下終于不用費(fèi)勁勸導(dǎo)爸媽了！”

文章說(shuō)的是，阿里巴巴達(dá)摩院的科學(xué)家，造了一個(gè)謠言粉碎機(jī)，這是一個(gè)算法模型，可以識(shí)別真假新聞，未來(lái)也能應(yīng)用在各大領(lǐng)域。

這是怎樣一種算法？準(zhǔn)確率高嗎？真的可以終結(jié)謠言？記者聯(lián)系到了正在大洋彼岸的“謠言粉碎機(jī)”的創(chuàng)造者李泉志。

“粉碎機(jī)”的前生功能

是為記者提供可靠線索

《速轉(zhuǎn)！科學(xué)家發(fā)現(xiàn)：一味中藥48小時(shí)可殺死60%癌細(xì)胞!》《晚上喝白開水的朋友，再不看就晚了！》《專家說(shuō)了，這樣?xùn)|西千萬(wàn)別吃！》……

你有沒有收到過(guò)父母發(fā)來(lái)的這些“關(guān)懷”？又有多少次是抱著“算了算了，你開心就好”的心態(tài)結(jié)束話題？

“不能保證百分之百準(zhǔn)確，但基本可以判斷是否為謠言。”李泉志，達(dá)摩院NLP團(tuán)隊(duì)的核心成員之一，畢業(yè)于清華大學(xué)，后在美國(guó)獲得自然語(yǔ)言理解方向的博士學(xué)位，目前在達(dá)摩院的西雅圖辦公室工作。

在加入達(dá)摩院前，他曾是路透社重要的“情報(bào)官”：通過(guò)機(jī)器篩選成千上萬(wàn)的網(wǎng)絡(luò)信息，為數(shù)千位一線記者提供可靠線索。

“AI謠言粉碎機(jī)”就是借助自然語(yǔ)言實(shí)現(xiàn)的。在剛剛結(jié)束的SemEval（自然語(yǔ)言處理領(lǐng)域的國(guó)際權(quán)威比賽，由國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)舉辦）全球語(yǔ)義測(cè)試中，“AI謠言粉碎機(jī)”創(chuàng)造了假新聞識(shí)別準(zhǔn)確率的新紀(jì)錄，達(dá)到了前所未有的81%。

判斷一個(gè)新聞?wù)婕?/p>

要分三個(gè)步驟

“AI謠言粉碎機(jī)”要怎么去判斷是否為謠言呢？李泉志說(shuō)，分三步——

首先，該模型會(huì)找到最初的信息源，分析用戶畫像，包括：專業(yè)領(lǐng)域，此前傳播或轉(zhuǎn)發(fā)過(guò)什么，是個(gè)人還是機(jī)構(gòu)，注冊(cè)時(shí)間，活躍規(guī)律等，來(lái)判斷發(fā)布者是否“可靠”。最后根據(jù)不同態(tài)度的人群比例、各自的信譽(yù)度等信息，計(jì)算出此新聞的可信度。

第二步，尋找網(wǎng)上所有的信息源，看看鏈接的域名，是否來(lái)自可信網(wǎng)站，比如新華社、政府醫(yī)藥管理局等。

第三步，將正文里關(guān)鍵的論證提煉為知識(shí)點(diǎn)，與知識(shí)圖譜里的權(quán)威知識(shí)庫(kù)做匹配驗(yàn)證。如果毫無(wú)聯(lián)系、自相矛盾，減分。

李泉志解釋，“AI謠言粉碎機(jī)”會(huì)考慮一部分人類的想法，更多的則是 AI的運(yùn)用。人工智能有很多人類比不了的地方，比如當(dāng)一個(gè)流言在社交網(wǎng)站上傳播很快的時(shí)候，我們很難去判斷真假，不知道誰(shuí)接收到了，是出于什么原因轉(zhuǎn)發(fā)，不同的人對(duì)此的評(píng)價(jià)是什么，而這些AI可以做到。“假如來(lái)一個(gè)流言，人可以通過(guò)網(wǎng)站去查證，但是AI可以快速把科學(xué)研究、新聞拉出來(lái)，加上后臺(tái)知識(shí)庫(kù)的對(duì)比，做一個(gè)驗(yàn)證。人腦中有基本判斷，但是沒有大型的知識(shí)庫(kù)。”李泉志說(shuō)。

就拿“AI謠言粉碎機(jī)”的訓(xùn)練樣本來(lái)說(shuō)，就要分至少兩個(gè)層面：首先拿底層的2億條信息，幾百萬(wàn)條新聞，訓(xùn)練語(yǔ)言樣本；再將模型進(jìn)行謠言的真實(shí)性訓(xùn)練。“是一個(gè)復(fù)雜且費(fèi)時(shí)的過(guò)程。”李泉志表示。

誰(shuí)制造謠言，論文是否抄襲

未來(lái)粉碎機(jī)還有更多功能

其實(shí)，要建這樣一個(gè)數(shù)據(jù)模型，并不容易。李泉志坦言，他在前一家公司就開始研究，到如今，也還需繼續(xù)完善。他們有一個(gè)小團(tuán)隊(duì)專門在研究這一技術(shù)，因?yàn)?，總體來(lái)說(shuō)這不是一個(gè)單獨(dú)能列出來(lái)的技術(shù)，是自然語(yǔ)言所有技術(shù)的綜合。

目前，該模型也并未應(yīng)用于阿里巴巴的任何業(yè)務(wù)中，李泉志坦言，數(shù)據(jù)模型需要不斷被“訓(xùn)練”，也需要得到社會(huì)的認(rèn)同，而這些，都不是短時(shí)間內(nèi)能解決的。

可以想象的是，“AI謠言粉碎機(jī)”未來(lái)將被應(yīng)用的多個(gè)場(chǎng)合。

比如，可以識(shí)別論文是否為抄襲，用技術(shù)從個(gè)人的寫作風(fēng)格、方法論、主題等多維度去判斷是否為抄襲。過(guò)去有人說(shuō)某年輕作家后期的作品由人代筆，以后用AI就能分析得出結(jié)論。

另一方面，可以協(xié)助警方找到真正謠言的制造者。通過(guò)AI去追蹤傳播路徑，從傳播路徑中，將傳播分解，可以發(fā)現(xiàn)規(guī)律，比如傳播了哪些用戶，用戶是什么反應(yīng)，是簡(jiǎn)單的轉(zhuǎn)發(fā)，還是贊成、反對(duì)，還是進(jìn)行了二次加工？

“當(dāng)然，該模型也還是需要更多的語(yǔ)言訓(xùn)練。比如有些用戶轉(zhuǎn)發(fā)時(shí)，說(shuō)的是反話、諷刺，有些是隱喻，不知是否是真實(shí)的情緒表達(dá)，這些作為機(jī)器很難對(duì)此做出判斷，但是通過(guò)大量的訓(xùn)練，是可以實(shí)現(xiàn)的。”李泉志表示，他和團(tuán)隊(duì)會(huì)繼續(xù)研究該模型。

目前，全球人工智能人才約30萬(wàn)人。其中產(chǎn)業(yè)人才約20萬(wàn)人，大部分分布在各國(guó)AI產(chǎn)業(yè)的公司和科技巨頭中；學(xué)術(shù)及儲(chǔ)備人才約10萬(wàn)人，分布在全球367所高校中。據(jù)統(tǒng)計(jì)，截止至2017年6月，全球人工智能初創(chuàng)企業(yè)共計(jì)2617家。美國(guó)占據(jù)1078家居首，中國(guó)以592家企業(yè)排名第二，其后分別是英國(guó)，以色列，加拿大等國(guó)家。其中，美國(guó)1078家人工智能企業(yè)約有78700名員工，中國(guó)592家公司中約有39200位員工，約為美國(guó)的50%。

目前，全球共有367所具有人工智能研究方向的高校，AI領(lǐng)域的人才數(shù)量約有10萬(wàn)人。其中，有6000多名AI領(lǐng)域的學(xué)者，以及7萬(wàn)余名AI相關(guān)專業(yè)在讀碩博研究生以及其他。每年AI相關(guān)領(lǐng)域碩博畢業(yè)生約2萬(wàn)名。在這367所高校中，美國(guó)擁有168所，占據(jù)全球的45.7%，獨(dú)占鰲頭，加拿大、中國(guó)、印度、英國(guó)位于第二梯隊(duì)。

人工智能領(lǐng)域?qū)W術(shù)能力排在世界前20的學(xué)校中，美國(guó)占據(jù)14所；排名的前八個(gè)席位都為美國(guó)所占據(jù)。雄厚的學(xué)術(shù)研究實(shí)力，幫助美國(guó)在人工智能領(lǐng)域取得了首屈一指的地位。而其他國(guó)家，在學(xué)術(shù)能力上與美國(guó)差距巨大，如何發(fā)展AI教育，是值得思考的問(wèn)題。

人工智能領(lǐng)域20所頂級(jí)高校

序號(hào)	學(xué)校名稱	國(guó)家	頂級(jí)學(xué)者數(shù)量	頂會(huì)論文數(shù)量
1	卡耐基梅隆大學(xué)	美國(guó)	111	638
2	加州大學(xué)伯克利分校	美國(guó)	48	285.1
3	華盛頓大學(xué)	美國(guó)	45	262.5
4	麻省理工學(xué)院	美國(guó)	48	235.2
5	斯坦福大學(xué)	美國(guó)	40	226.9
6	康奈爾大學(xué)	美國(guó)	46	212.8
7	佐治亞理工學(xué)院	美國(guó)	53	208.5
8	賓夕法尼亞大學(xué)	美國(guó)	29	184.4
9	多倫多大學(xué)	加拿大	39	164.1
10	伊利諾伊大學(xué)香檳分校	美國(guó)	44	161.6
11	南加州大學(xué)	美國(guó)	32	161.3
12	北京大學(xué)	中國(guó)	69	154.9
13	愛丁堡大學(xué)	英國(guó)	47	151.2
14	東京大學(xué)	日本	40	145.2
15	密歇根大學(xué)	美國(guó)	32	135.2
16	清華大學(xué)	中國(guó)	45	132.1
17	香港科技大學(xué)	中國(guó)	29	126.1
18	馬薩諸塞大學(xué)阿默斯特分校	美國(guó)	36	122.4
19	馬里蘭大學(xué)	美國(guó)	26	112.6
20	新加坡國(guó)立大學(xué)	新加坡	33	102.3

注：

1.頂尖學(xué)者數(shù)目是指2006-2017年間在人工智能領(lǐng)域頂級(jí)會(huì)議上發(fā)表至少一篇論文的學(xué)者數(shù)目

2.頂會(huì)論文數(shù)目是指2006-2017年間該校學(xué)者在人工智能頂級(jí)會(huì)議上發(fā)表的論文總數(shù)目，論文數(shù)目由論文合作人數(shù)調(diào)整得出。頂級(jí)會(huì)議是指AI領(lǐng)域的最高國(guó)際學(xué)術(shù)會(huì)議，也是全世界科學(xué)家參與和關(guān)注最多的會(huì)議。

從國(guó)別來(lái)看，AI產(chǎn)業(yè)人才主要分布在美國(guó)、中國(guó)及其他國(guó)家的企業(yè)中。以在初創(chuàng)企業(yè)工作的AI人才為例來(lái)看。截至2017年6月，全球人工智能初創(chuàng)企業(yè)共計(jì)2617家。美國(guó)占據(jù)1078家居首，中國(guó)以592家企業(yè)排名第二，其后分別是英國(guó)，以色列，加拿大等國(guó)家。其中，美國(guó)1078家人工智能初創(chuàng)企業(yè)約有78700名員工，中國(guó)592家公司中約有39200位員工，只有美國(guó)的50%。美國(guó)人工智能初創(chuàng)企業(yè)主要以1-10人和10-50人的團(tuán)隊(duì)為主，這種小型團(tuán)隊(duì)共759個(gè)，占據(jù)全美的70.41%，是美國(guó)AI初創(chuàng)公司的主力軍；中國(guó)人工智能初創(chuàng)企業(yè)主要是10-50人的團(tuán)隊(duì)，總量384個(gè)，占據(jù)全國(guó)的64.86%?？梢哉f(shuō)，美國(guó)的小型創(chuàng)業(yè)團(tuán)隊(duì)規(guī)模比中國(guó)小。在需要同等技術(shù)的情況下，美國(guó)團(tuán)隊(duì)的平均能力和可創(chuàng)造價(jià)值高于中國(guó)團(tuán)隊(duì)。

人工智能企業(yè)擁有數(shù)量TOP5

數(shù)據(jù)來(lái)源：公開資料整理

本文采編：CY325

版權(quán)提示：智研咨詢倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)，對(duì)有明確來(lái)源的內(nèi)容注明出處。如發(fā)現(xiàn)本站文章存在版權(quán)、稿酬或其它問(wèn)題，煩請(qǐng)聯(lián)系我們，我們將及時(shí)與您溝通處理。聯(lián)系方式：gaojian@chyxx.com、010-60343812。