昨天,一篇《為拯救爸媽朋友圈,達(dá)摩院造了“謠言粉碎機(jī)”》的文章,在朋友圈刷屏,引來(lái)一片鼓掌叫好:“這下終于不用費(fèi)勁勸導(dǎo)爸媽了!”
文章說(shuō)的是,阿里巴巴達(dá)摩院的科學(xué)家,造了一個(gè)謠言粉碎機(jī),這是一個(gè)算法模型,可以識(shí)別真假新聞,未來(lái)也能應(yīng)用在各大領(lǐng)域。
這是怎樣一種算法?準(zhǔn)確率高嗎?真的可以終結(jié)謠言?記者聯(lián)系到了正在大洋彼岸的“謠言粉碎機(jī)”的創(chuàng)造者李泉志。
“粉碎機(jī)”的前生功能
是為記者提供可靠線索
《速轉(zhuǎn)!科學(xué)家發(fā)現(xiàn):一味中藥48小時(shí)可殺死60%癌細(xì)胞!》《晚上喝白開水的朋友,再不看就晚了!》《專家說(shuō)了,這樣?xùn)|西千萬(wàn)別吃!》……
你有沒有收到過(guò)父母發(fā)來(lái)的這些“關(guān)懷”?又有多少次是抱著“算了算了,你開心就好”的心態(tài)結(jié)束話題?
“不能保證百分之百準(zhǔn)確,但基本可以判斷是否為謠言。”李泉志,達(dá)摩院NLP團(tuán)隊(duì)的核心成員之一,畢業(yè)于清華大學(xué),后在美國(guó)獲得自然語(yǔ)言理解方向的博士學(xué)位,目前在達(dá)摩院的西雅圖辦公室工作。
在加入達(dá)摩院前,他曾是路透社重要的“情報(bào)官”:通過(guò)機(jī)器篩選成千上萬(wàn)的網(wǎng)絡(luò)信息,為數(shù)千位一線記者提供可靠線索。
“AI謠言粉碎機(jī)”就是借助自然語(yǔ)言實(shí)現(xiàn)的。在剛剛結(jié)束的SemEval(自然語(yǔ)言處理領(lǐng)域的國(guó)際權(quán)威比賽,由國(guó)際計(jì)算語(yǔ)言學(xué)學(xué)會(huì)舉辦)全球語(yǔ)義測(cè)試中,“AI謠言粉碎機(jī)”創(chuàng)造了假新聞識(shí)別準(zhǔn)確率的新紀(jì)錄,達(dá)到了前所未有的81%。
判斷一個(gè)新聞?wù)婕?/p>
要分三個(gè)步驟
“AI謠言粉碎機(jī)”要怎么去判斷是否為謠言呢?李泉志說(shuō),分三步——
首先,該模型會(huì)找到最初的信息源,分析用戶畫像,包括:專業(yè)領(lǐng)域,此前傳播或轉(zhuǎn)發(fā)過(guò)什么,是個(gè)人還是機(jī)構(gòu),注冊(cè)時(shí)間,活躍規(guī)律等,來(lái)判斷發(fā)布者是否“可靠”。最后根據(jù)不同態(tài)度的人群比例、各自的信譽(yù)度等信息,計(jì)算出此新聞的可信度。
第二步,尋找網(wǎng)上所有的信息源,看看鏈接的域名,是否來(lái)自可信網(wǎng)站,比如新華社、政府醫(yī)藥管理局等。
第三步,將正文里關(guān)鍵的論證提煉為知識(shí)點(diǎn),與知識(shí)圖譜里的權(quán)威知識(shí)庫(kù)做匹配驗(yàn)證。如果毫無(wú)聯(lián)系、自相矛盾,減分。
李泉志解釋,“AI謠言粉碎機(jī)”會(huì)考慮一部分人類的想法,更多的則是 AI的運(yùn)用。人工智能有很多人類比不了的地方,比如當(dāng)一個(gè)流言在社交網(wǎng)站上傳播很快的時(shí)候,我們很難去判斷真假,不知道誰(shuí)接收到了,是出于什么原因轉(zhuǎn)發(fā),不同的人對(duì)此的評(píng)價(jià)是什么,而這些AI可以做到。“假如來(lái)一個(gè)流言,人可以通過(guò)網(wǎng)站去查證,但是AI可以快速把科學(xué)研究、新聞拉出來(lái),加上后臺(tái)知識(shí)庫(kù)的對(duì)比,做一個(gè)驗(yàn)證。人腦中有基本判斷,但是沒有大型的知識(shí)庫(kù)。”李泉志說(shuō)。
就拿“AI謠言粉碎機(jī)”的訓(xùn)練樣本來(lái)說(shuō),就要分至少兩個(gè)層面:首先拿底層的2億條信息,幾百萬(wàn)條新聞,訓(xùn)練語(yǔ)言樣本;再將模型進(jìn)行謠言的真實(shí)性訓(xùn)練。“是一個(gè)復(fù)雜且費(fèi)時(shí)的過(guò)程。”李泉志表示。
誰(shuí)制造謠言,論文是否抄襲
未來(lái)粉碎機(jī)還有更多功能
其實(shí),要建這樣一個(gè)數(shù)據(jù)模型,并不容易。李泉志坦言,他在前一家公司就開始研究,到如今,也還需繼續(xù)完善。他們有一個(gè)小團(tuán)隊(duì)專門在研究這一技術(shù),因?yàn)?,總體來(lái)說(shuō)這不是一個(gè)單獨(dú)能列出來(lái)的技術(shù),是自然語(yǔ)言所有技術(shù)的綜合。
目前,該模型也并未應(yīng)用于阿里巴巴的任何業(yè)務(wù)中,李泉志坦言,數(shù)據(jù)模型需要不斷被“訓(xùn)練”,也需要得到社會(huì)的認(rèn)同,而這些,都不是短時(shí)間內(nèi)能解決的。
可以想象的是,“AI謠言粉碎機(jī)”未來(lái)將被應(yīng)用的多個(gè)場(chǎng)合。
比如,可以識(shí)別論文是否為抄襲,用技術(shù)從個(gè)人的寫作風(fēng)格、方法論、主題等多維度去判斷是否為抄襲。過(guò)去有人說(shuō)某年輕作家后期的作品由人代筆,以后用AI就能分析得出結(jié)論。
另一方面,可以協(xié)助警方找到真正謠言的制造者。通過(guò)AI去追蹤傳播路徑,從傳播路徑中,將傳播分解,可以發(fā)現(xiàn)規(guī)律,比如傳播了哪些用戶,用戶是什么反應(yīng),是簡(jiǎn)單的轉(zhuǎn)發(fā),還是贊成、反對(duì),還是進(jìn)行了二次加工?
“當(dāng)然,該模型也還是需要更多的語(yǔ)言訓(xùn)練。比如有些用戶轉(zhuǎn)發(fā)時(shí),說(shuō)的是反話、諷刺,有些是隱喻,不知是否是真實(shí)的情緒表達(dá),這些作為機(jī)器很難對(duì)此做出判斷,但是通過(guò)大量的訓(xùn)練,是可以實(shí)現(xiàn)的。”李泉志表示,他和團(tuán)隊(duì)會(huì)繼續(xù)研究該模型。
目前,全球人工智能人才約30萬(wàn)人。其中產(chǎn)業(yè)人才約20萬(wàn)人,大部分分布在各國(guó)AI產(chǎn)業(yè)的公司和科技巨頭中;學(xué)術(shù)及儲(chǔ)備人才約10萬(wàn)人,分布在全球367所高校中。據(jù)統(tǒng)計(jì),截止至2017年6月,全球人工智能初創(chuàng)企業(yè)共計(jì)2617家。美國(guó)占據(jù)1078家居首,中國(guó)以592家企業(yè)排名第二,其后分別是英國(guó),以色列,加拿大等國(guó)家。其中,美國(guó)1078家人工智能企業(yè)約有78700名員工,中國(guó)592家公司中約有39200位員工,約為美國(guó)的50%。
目前,全球共有367所具有人工智能研究方向的高校,AI領(lǐng)域的人才數(shù)量約有10萬(wàn)人。其中,有6000多名AI領(lǐng)域的學(xué)者,以及7萬(wàn)余名AI相關(guān)專業(yè)在讀碩博研究生以及其他。每年AI相關(guān)領(lǐng)域碩博畢業(yè)生約2萬(wàn)名。在這367所高校中,美國(guó)擁有168所,占據(jù)全球的45.7%,獨(dú)占鰲頭,加拿大、中國(guó)、印度、英國(guó)位于第二梯隊(duì)。
人工智能領(lǐng)域?qū)W術(shù)能力排在世界前20的學(xué)校中,美國(guó)占據(jù)14所;排名的前八個(gè)席位都為美國(guó)所占據(jù)。雄厚的學(xué)術(shù)研究實(shí)力,幫助美國(guó)在人工智能領(lǐng)域取得了首屈一指的地位。而其他國(guó)家,在學(xué)術(shù)能力上與美國(guó)差距巨大,如何發(fā)展AI教育,是值得思考的問(wèn)題。
人工智能領(lǐng)域20所頂級(jí)高校
序號(hào) | 學(xué)校名稱 | 國(guó)家 | 頂級(jí)學(xué)者數(shù)量 | 頂會(huì)論文數(shù)量 |
1 | 卡耐基梅隆大學(xué) | 美國(guó) | 111 | 638 |
2 | 加州大學(xué)伯克利分校 | 美國(guó) | 48 | 285.1 |
3 | 華盛頓大學(xué) | 美國(guó) | 45 | 262.5 |
4 | 麻省理工學(xué)院 | 美國(guó) | 48 | 235.2 |
5 | 斯坦福大學(xué) | 美國(guó) | 40 | 226.9 |
6 | 康奈爾大學(xué) | 美國(guó) | 46 | 212.8 |
7 | 佐治亞理工學(xué)院 | 美國(guó) | 53 | 208.5 |
8 | 賓夕法尼亞大學(xué) | 美國(guó) | 29 | 184.4 |
9 | 多倫多大學(xué) | 加拿大 | 39 | 164.1 |
10 | 伊利諾伊大學(xué)香檳分校 | 美國(guó) | 44 | 161.6 |
11 | 南加州大學(xué) | 美國(guó) | 32 | 161.3 |
12 | 北京大學(xué) | 中國(guó) | 69 | 154.9 |
13 | 愛丁堡大學(xué) | 英國(guó) | 47 | 151.2 |
14 | 東京大學(xué) | 日本 | 40 | 145.2 |
15 | 密歇根大學(xué) | 美國(guó) | 32 | 135.2 |
16 | 清華大學(xué) | 中國(guó) | 45 | 132.1 |
17 | 香港科技大學(xué) | 中國(guó) | 29 | 126.1 |
18 | 馬薩諸塞大學(xué)阿默斯特分校 | 美國(guó) | 36 | 122.4 |
19 | 馬里蘭大學(xué) | 美國(guó) | 26 | 112.6 |
20 | 新加坡國(guó)立大學(xué) | 新加坡 | 33 | 102.3 |
注:
1.頂尖學(xué)者數(shù)目是指2006-2017年間在人工智能領(lǐng)域頂級(jí)會(huì)議上發(fā)表至少一篇論文的學(xué)者數(shù)目
2.頂會(huì)論文數(shù)目是指2006-2017年間該校學(xué)者在人工智能頂級(jí)會(huì)議上發(fā)表的論文總數(shù)目,論文數(shù)目由論文合作人數(shù)調(diào)整得出。頂級(jí)會(huì)議是指AI領(lǐng)域的最高國(guó)際學(xué)術(shù)會(huì)議,也是全世界科學(xué)家參與和關(guān)注最多的會(huì)議。
從國(guó)別來(lái)看,AI產(chǎn)業(yè)人才主要分布在美國(guó)、中國(guó)及其他國(guó)家的企業(yè)中。以在初創(chuàng)企業(yè)工作的AI人才為例來(lái)看。截至2017年6月,全球人工智能初創(chuàng)企業(yè)共計(jì)2617家。美國(guó)占據(jù)1078家居首,中國(guó)以592家企業(yè)排名第二,其后分別是英國(guó),以色列,加拿大等國(guó)家。其中,美國(guó)1078家人工智能初創(chuàng)企業(yè)約有78700名員工,中國(guó)592家公司中約有39200位員工,只有美國(guó)的50%。美國(guó)人工智能初創(chuàng)企業(yè)主要以1-10人和10-50人的團(tuán)隊(duì)為主,這種小型團(tuán)隊(duì)共759個(gè),占據(jù)全美的70.41%,是美國(guó)AI初創(chuàng)公司的主力軍;中國(guó)人工智能初創(chuàng)企業(yè)主要是10-50人的團(tuán)隊(duì),總量384個(gè),占據(jù)全國(guó)的64.86%??梢哉f(shuō),美國(guó)的小型創(chuàng)業(yè)團(tuán)隊(duì)規(guī)模比中國(guó)小。在需要同等技術(shù)的情況下,美國(guó)團(tuán)隊(duì)的平均能力和可創(chuàng)造價(jià)值高于中國(guó)團(tuán)隊(duì)。
人工智能企業(yè)擁有數(shù)量TOP5
數(shù)據(jù)來(lái)源:公開資料整理
版權(quán)提示:智研咨詢倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán),對(duì)有明確來(lái)源的內(nèi)容注明出處。如發(fā)現(xiàn)本站文章存在版權(quán)、稿酬或其它問(wèn)題,煩請(qǐng)聯(lián)系我們,我們將及時(shí)與您溝通處理。聯(lián)系方式:gaojian@chyxx.com、010-60343812。