內(nèi)容概況:數(shù)據(jù)加工包括數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)審核等,本質(zhì)上是提升數(shù)據(jù)資源質(zhì)量的過程,數(shù)據(jù)資源的質(zhì)量越高其價(jià)值越大。具體分環(huán)節(jié)看:企業(yè)標(biāo)配的能力,基本在數(shù)據(jù)收集存儲(chǔ)環(huán)節(jié)就已經(jīng)完成;數(shù)據(jù)標(biāo)注:由于非結(jié)構(gòu)化數(shù)據(jù)占比越來越大,對(duì)于數(shù)據(jù)標(biāo)注行業(yè)的需求穩(wěn)定提升,已經(jīng)形成一個(gè)穩(wěn)定成長的行業(yè),數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模不斷擴(kuò)大,圖像類和語音類需求占比超八成。數(shù)據(jù)統(tǒng)計(jì),2022年中國數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模為50.8億元,2023年數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模約為60.8億元。
關(guān)鍵詞:數(shù)據(jù)標(biāo)注、圖像標(biāo)注、文本標(biāo)注、語音標(biāo)注、計(jì)算機(jī)視覺、智能語音
一、數(shù)據(jù)標(biāo)注行業(yè)概述
數(shù)據(jù)標(biāo)注是指借助特定軟件標(biāo)注工具以人工的方式將圖片、語音、文本、視頻等數(shù)據(jù)內(nèi)容打上特征標(biāo)簽,使計(jì)算機(jī)通過大量學(xué)習(xí)這些帶有特征標(biāo)簽的數(shù)據(jù),最終具備自主識(shí)別特征的一種行為。數(shù)據(jù)標(biāo)注技術(shù)作為提供訓(xùn)練數(shù)據(jù)的必經(jīng)環(huán)節(jié),促進(jìn)了人工智能的快速發(fā)展。常見的數(shù)據(jù)標(biāo)注按照數(shù)據(jù)類型可以分為圖像標(biāo)注、文本標(biāo)注及語音標(biāo)注。
中國數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展歷程可以大致分為四個(gè)階段。在起步階段,大約在2005年左右,一些計(jì)算機(jī)視覺和人工智能領(lǐng)域的專家開始意識(shí)到數(shù)據(jù)標(biāo)注的重要性,并進(jìn)行了簡單的數(shù)據(jù)標(biāo)注工作。這個(gè)階段的數(shù)據(jù)標(biāo)注主要由學(xué)術(shù)機(jī)構(gòu)和科研人員自發(fā)進(jìn)行,規(guī)模較小,還沒有形成一個(gè)獨(dú)立的行業(yè)。隨著人工智能技術(shù)的不斷發(fā)展和普及,數(shù)據(jù)標(biāo)注的需求逐漸增多。在探索階段,一些企業(yè)開始看到數(shù)據(jù)標(biāo)注的市場潛力,并開始進(jìn)入這個(gè)領(lǐng)域。這個(gè)階段的數(shù)據(jù)標(biāo)注主要由小型創(chuàng)業(yè)公司和個(gè)人工作室提供服務(wù),標(biāo)注的內(nèi)容相對(duì)較簡單,主要是文本、圖片等類型的數(shù)據(jù)。從2015年開始,隨著深度學(xué)習(xí)等技術(shù)的興起,數(shù)據(jù)標(biāo)注的需求呈現(xiàn)爆炸性增長。在快速發(fā)展階段,大量的人工智能企業(yè)涌現(xiàn),對(duì)數(shù)據(jù)標(biāo)注服務(wù)的需求急劇增加。同時(shí),一些大型互聯(lián)網(wǎng)公司也開始布局?jǐn)?shù)據(jù)標(biāo)注領(lǐng)域,推出自己的數(shù)據(jù)標(biāo)注平臺(tái)和工具。這個(gè)階段的數(shù)據(jù)標(biāo)注服務(wù)逐漸形成了一個(gè)龐大的產(chǎn)業(yè),涵蓋了圖像、文本、音頻、視頻等多種類型的數(shù)據(jù)標(biāo)注。2018年以來,中國數(shù)據(jù)標(biāo)注行業(yè)已經(jīng)進(jìn)入了一個(gè)相對(duì)成熟和穩(wěn)定的階段。雖然數(shù)據(jù)標(biāo)注的需求仍然在增長,但增長速度已經(jīng)趨于平緩。在這個(gè)階段,數(shù)據(jù)標(biāo)注公司的競爭更加激烈,服務(wù)質(zhì)量、價(jià)格和技術(shù)實(shí)力成為競爭的關(guān)鍵因素。同時(shí),隨著人工智能技術(shù)的不斷發(fā)展和應(yīng)用場景的拓展,數(shù)據(jù)標(biāo)注行業(yè)也面臨著新的挑戰(zhàn)和機(jī)遇。
二、數(shù)據(jù)標(biāo)注行業(yè)政策
隨著數(shù)據(jù)標(biāo)注市場不斷壯大,數(shù)據(jù)標(biāo)注市場的各個(gè)參與主體都投入到市場運(yùn)作中。相關(guān)政策文件的密集出臺(tái)推動(dòng)我國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)迅速發(fā)展,技術(shù)不斷進(jìn)步,基礎(chǔ)設(shè)施不斷完善,融合應(yīng)用不斷深入。2023年12月,國家發(fā)展改革委等五部門印發(fā)《深入實(shí)施“東數(shù)西算”工程加快構(gòu)建全國一體化算力網(wǎng)的實(shí)施意見》,提出差異化統(tǒng)籌布局行業(yè)特征突出的數(shù)據(jù)集群,促進(jìn)行業(yè)數(shù)據(jù)要素有序流通,打造一批涵蓋算力利用與數(shù)據(jù)開發(fā)的行業(yè)數(shù)據(jù)應(yīng)用空間,服務(wù)行業(yè)大模型的基礎(chǔ)實(shí)驗(yàn)及商業(yè)化應(yīng)用。2024年3月,河南省人民政府辦公廳印發(fā)《河南省加快制造業(yè)“六新”突破實(shí)施方案》,提出加快建設(shè)數(shù)據(jù)標(biāo)注行業(yè)標(biāo)準(zhǔn)體系,支持商丘、安陽市打造高水平數(shù)據(jù)標(biāo)注產(chǎn)業(yè)集群。到2025年,突破一批關(guān)鍵算法,初步建成較為完善的算法轉(zhuǎn)化與應(yīng)用生態(tài)。
三、數(shù)據(jù)標(biāo)注行業(yè)產(chǎn)業(yè)鏈
數(shù)據(jù)標(biāo)注位于產(chǎn)業(yè)鏈中游,是AI商業(yè)化應(yīng)用中重要的一環(huán)。行業(yè)的上游為AI技術(shù)數(shù)據(jù)服務(wù)商、IDC廠商、服務(wù)器等數(shù)據(jù)資源提供方和硬件資源供應(yīng)商。中游為數(shù)據(jù)標(biāo)注廠商,包括AI基礎(chǔ)數(shù)據(jù)服務(wù)商,如海天瑞聲等。下游則是數(shù)據(jù)標(biāo)注行業(yè)的應(yīng)用領(lǐng)域,包括計(jì)算機(jī)視覺、智能語音和自然語言等。
相關(guān)報(bào)告:智研咨詢發(fā)布的《中國數(shù)據(jù)標(biāo)注行業(yè)市場供需形勢分析及投資前景評(píng)估報(bào)告》
四、數(shù)據(jù)標(biāo)注行業(yè)發(fā)展現(xiàn)狀
數(shù)據(jù)加工包括數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)審核等,本質(zhì)上是提升數(shù)據(jù)資源質(zhì)量的過程,數(shù)據(jù)資源的質(zhì)量越高其價(jià)值越大。具體分環(huán)節(jié)看:企業(yè)標(biāo)配的能力,基本在數(shù)據(jù)收集存儲(chǔ)環(huán)節(jié)就已經(jīng)完成;數(shù)據(jù)標(biāo)注:由于非結(jié)構(gòu)化數(shù)據(jù)占比越來越大,對(duì)于數(shù)據(jù)標(biāo)注行業(yè)的需求穩(wěn)定提升,已經(jīng)形成一個(gè)穩(wěn)定成長的行業(yè),數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模不斷擴(kuò)大,圖像類和語音類需求占比超八成。數(shù)據(jù)統(tǒng)計(jì),2022年中國數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模為50.8億元,2023年數(shù)據(jù)標(biāo)注行業(yè)市場規(guī)模約為60.8億元。
從市場結(jié)構(gòu)來看,計(jì)算機(jī)視覺和智能語音是數(shù)據(jù)標(biāo)注行業(yè)的主要應(yīng)用領(lǐng)域。其中計(jì)算機(jī)視覺是目前最熱門的人工智能項(xiàng)目之一,應(yīng)用于開發(fā)自動(dòng)駕駛模型、手機(jī)面部識(shí)別和情感識(shí)別等。2023年計(jì)算機(jī)視覺用數(shù)據(jù)標(biāo)注市場規(guī)模達(dá)到27.5億元。
智能語音是指聲音信息在人機(jī)間的交互,包括語音識(shí)別技術(shù)(ASR)和語音合成技術(shù)(TTS)。隨著信息技術(shù)的發(fā)展,智能語音技術(shù)已經(jīng)成為人們信息獲取和溝通最便捷、最有效的手段。數(shù)據(jù)統(tǒng)計(jì),2023年中國數(shù)據(jù)標(biāo)注行業(yè)智能語音市場規(guī)模達(dá)到24.6億元。
五、數(shù)據(jù)標(biāo)注行業(yè)企業(yè)格局和重點(diǎn)企業(yè)分析
企業(yè)格局
AI行業(yè)的蓬勃發(fā)展,對(duì)數(shù)據(jù)的需求呈井噴式增長,數(shù)據(jù)標(biāo)注行業(yè)是伴隨著AI的興起而產(chǎn)生的一個(gè)新興行業(yè)。目前,我國國內(nèi)市場越來越多的互聯(lián)網(wǎng)巨頭公司開始組建自己的數(shù)據(jù)標(biāo)注平臺(tái),京東(京東眾智)、百度(百度眾測)都已經(jīng)擁有自己的標(biāo)注平臺(tái)和工具。頭部公司之外,國內(nèi)近年興起眾多數(shù)據(jù)標(biāo)注公司,如龍貓數(shù)據(jù)、Testin云測、倍賽BasicFinder、數(shù)據(jù)堂等,這些公司僅次于第一梯隊(duì),都具有相當(dāng)?shù)囊?guī)模。
重點(diǎn)企業(yè)
北京海天瑞聲科技股份有限公司(以下簡稱“海天瑞聲”)是我國領(lǐng)先的訓(xùn)練數(shù)據(jù)專業(yè)提供商。自2005年成立以來,公司致力于為AI產(chǎn)業(yè)鏈上的各類機(jī)構(gòu)提供算法模型開發(fā)訓(xùn)練所需的專業(yè)數(shù)據(jù)集。公司所提供的訓(xùn)練數(shù)據(jù)覆蓋智能語音(語音識(shí)別、語音合成等)、計(jì)算機(jī)視覺、自然語言等多個(gè)核心領(lǐng)域,全面服務(wù)于人機(jī)交互、智能駕駛、智能家居、智慧城市等多種創(chuàng)新應(yīng)用場景。數(shù)據(jù)統(tǒng)計(jì),2023年海天瑞聲智能語音、計(jì)算機(jī)視覺、自然語音營收分別為1.03億元、0.47億元和0.15億元。
六、數(shù)據(jù)標(biāo)注行業(yè)發(fā)展趨勢
1、細(xì)化數(shù)據(jù)標(biāo)注任務(wù)
隨著人工智能技術(shù)在一些行業(yè)的廣泛應(yīng)用,這些行業(yè)原有的數(shù)據(jù)標(biāo)注任務(wù)已經(jīng)不再滿足業(yè)務(wù)需求。以智能安防為例,為了促進(jìn)智能安防系統(tǒng)從傳統(tǒng)的被動(dòng)防御走向智能化的主動(dòng)預(yù)警,一些新的數(shù)據(jù)標(biāo)注任務(wù)也應(yīng)運(yùn)而生。例如,當(dāng)一個(gè)神情緊張或者頭戴面罩的小偷手握一根棍子準(zhǔn)備翻越小區(qū)外墻企圖實(shí)施盜竊行為時(shí),安防系統(tǒng)應(yīng)該馬上啟動(dòng)報(bào)警系統(tǒng),并及時(shí)向安防人員發(fā)出警告,以保障住戶的財(cái)產(chǎn)安全。實(shí)現(xiàn)異常情況預(yù)警的新標(biāo)注任務(wù),包括表情標(biāo)注、危險(xiǎn)品標(biāo)注和行為標(biāo)注,利用這些數(shù)據(jù)標(biāo)注就能幫助安防系統(tǒng)識(shí)別緊張的表情、違法的面罩和違規(guī)的翻越行為。從技術(shù)角度來看,新標(biāo)注任務(wù)為異常行為的識(shí)別與建模提供了高質(zhì)量的訓(xùn)練數(shù)據(jù),也有利于提高模型訓(xùn)練的準(zhǔn)確性。因此,針對(duì)特定的行業(yè)需求細(xì)化標(biāo)注任務(wù),將是今后數(shù)據(jù)標(biāo)注的一個(gè)發(fā)展趨勢。
2、推動(dòng)半自動(dòng)化數(shù)據(jù)標(biāo)注工具的研發(fā)
隨著AI技術(shù)的發(fā)展,數(shù)據(jù)標(biāo)注工具需要從只支持人工標(biāo)注逐漸轉(zhuǎn)化為人工標(biāo)注+AI輔助標(biāo)注的方法。其基本思路為:基于以往的標(biāo)注,可以通過AI模型對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后由標(biāo)注人員在此基礎(chǔ)上做一些校正。以圖像標(biāo)注為例,標(biāo)注工具首先通過預(yù)訓(xùn)練的語義分割模型來處理圖像,并生成多個(gè)圖像片段、分類標(biāo)簽及其置信度分?jǐn)?shù)。置信度分?jǐn)?shù)最高的片段用于對(duì)標(biāo)簽的初始化,呈現(xiàn)給標(biāo)注者。標(biāo)注者可以從機(jī)器生成的多個(gè)候選標(biāo)簽中為當(dāng)前片段選擇合適的標(biāo)簽,或者對(duì)機(jī)器未覆蓋到的對(duì)象添加分割段。AI輔助標(biāo)注技術(shù)的應(yīng)用,能夠極大地降低人力成本并使標(biāo)注速度大幅提升。目前,已經(jīng)有一些數(shù)據(jù)標(biāo)注公司開發(fā)了相應(yīng)的半自動(dòng)化工具,但是從標(biāo)注比例來看,機(jī)器標(biāo)注占比30%左右,而人工標(biāo)注占比達(dá)到70%左右。因此,數(shù)據(jù)標(biāo)注工具的發(fā)展趨勢是開發(fā)以人工標(biāo)注為主機(jī)器標(biāo)注為輔的半自動(dòng)化標(biāo)注工具,同時(shí)減少人工標(biāo)注的比例,并逐步提高機(jī)器標(biāo)注的占比。
以上數(shù)據(jù)及信息可參考智研咨詢(www.chy數(shù)據(jù)標(biāo)注數(shù)據(jù)標(biāo)注.com)發(fā)布的《中國數(shù)據(jù)標(biāo)注行業(yè)市場供需形勢分析及投資前景評(píng)估報(bào)告》。智研咨詢是中國領(lǐng)先產(chǎn)業(yè)咨詢機(jī)構(gòu),提供深度產(chǎn)業(yè)研究報(bào)告、商業(yè)計(jì)劃書、可行性研究報(bào)告及定制服務(wù)等一站式產(chǎn)業(yè)咨詢服務(wù)。您可以關(guān)注【智研咨詢】公眾號(hào),每天及時(shí)掌握更多行業(yè)動(dòng)態(tài)。
2025-2031年中國數(shù)據(jù)標(biāo)注行業(yè)市場供需形勢分析及投資前景評(píng)估報(bào)告
《2025-2031年中國數(shù)據(jù)標(biāo)注行業(yè)市場供需形勢分析及投資前景評(píng)估報(bào)告》共七章,包含中國數(shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈?zhǔn)崂砑叭吧疃冉馕?,中國?shù)據(jù)標(biāo)注產(chǎn)業(yè)鏈代表性企業(yè)發(fā)展布局案例研究,中國數(shù)據(jù)標(biāo)注行業(yè)市場前瞻及投資策略建議等內(nèi)容。
文章轉(zhuǎn)載、引用說明:
智研咨詢推崇信息資源共享,歡迎各大媒體和行研機(jī)構(gòu)轉(zhuǎn)載引用。但請(qǐng)遵守如下規(guī)則:
1.可全文轉(zhuǎn)載,但不得惡意鏡像。轉(zhuǎn)載需注明來源(智研咨詢)。
2.轉(zhuǎn)載文章內(nèi)容時(shí)不得進(jìn)行刪減或修改。圖表和數(shù)據(jù)可以引用,但不能去除水印和數(shù)據(jù)來源。
如有違反以上規(guī)則,我們將保留追究法律責(zé)任的權(quán)力。
版權(quán)提示:
智研咨詢倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán),對(duì)有明確來源的內(nèi)容注明出處。如發(fā)現(xiàn)本站文章存在版權(quán)、稿酬或其它問題,煩請(qǐng)聯(lián)系我們,我們將及時(shí)與您溝通處理。聯(lián)系方式:gaojian@chyxx.com、010-60343812。