數據作為人工智能的三大核心要素之一,直接決定人工智能的能力上限。作為數據要素資源大省,江蘇正全速推進數據產業(yè)提質發(fā)展,為人工智能產業(yè)構筑堅實的發(fā)展基石。
荔枝新聞中心記者黃蒙說:“數據是人工智能的核心要素。隨著人工智能產業(yè)的飛速發(fā)展,對高質量數據的需求也與日俱增。這也催生出了數據采集、數據標注等新興產業(yè)?,F(xiàn)在我們就來到了一家位于無錫的數據企業(yè),看看這里是如何‘生產’高質量數據的?!?/p>
走進江蘇省具身智能機器人工業(yè)數據采集與實訓中心,一排排人形機器人在訓練師的指導下,學習分類生產線上的各類物料。當人工智能觸達物理世界,“物品是什么、如何抓取、擺放到什么位置”這些與物理環(huán)境交互反饋的真實數據,已然成為人形機器人研發(fā)的關鍵環(huán)節(jié)。
天奇股份具身智能事業(yè)部人形機器人數據采集員喬旭說:“我們這是一個真實產線的模擬場景,它采集了相機的視覺數據、手臂關節(jié)的軌跡數據。數據采集后交付給大模型開發(fā)的工程師進行大模型訓練,隨后植入到機器人本體中,就可以到工廠中實際使用了?!?/p>
當前,訓練一個具身智能大腦需要百萬級“人類行為數據”。在無錫這家數據采集中心,近百臺機器人正源源不斷產出適用于不同工業(yè)場景的訓練數據。伴隨著具身智能機器人的爆發(fā)式增長,這類數據產品更是呈現(xiàn)出供不應求的市場態(tài)勢。
天奇股份具身智能事業(yè)部大模型算法首席科學家童隨兵說:“數據是提升我們模型智能化程度的一個催化劑?;谛聰祿?,我們就能夠持續(xù)進化機器人。年前已經交付了30萬條機器人的操作數據,今年大約有500萬條的數據交付量。要把數據采集中心打造成為長三角的數據平臺?!?/p>
如果說人形機器人的“大腦訓練”尚處于起步階段,那么發(fā)展較早的大模型正依托海量數據支撐,持續(xù)拓展知識應用邊界。在國內最大數據標注企業(yè)——澳鵬科技(無錫)有限公司,醫(yī)學標注專家正通過專業(yè)標注“教導”醫(yī)療大模型。隨著人工智能技術加速向垂直領域滲透,越來越多的專業(yè)技術人才投身數據標注行業(yè),成為“專業(yè)AI導師”。
澳鵬數據醫(yī)療標注專家許加路熹說:“您可以看到我們這一個病例是腦膠質瘤的轉移灶。我給了6個選項、6個相應的選擇處理交給大模型。我的任務是讓這兩個模型回答這個問題的正確率低,讓這道題難到大模型回答不上來。”
記者:“你是這些大模型的‘考官’。”
許加路熹說:“是的,我給它們出一個非常高階的醫(yī)療的病例難題去難倒它們。工程師可以根據我們反饋的題目去發(fā)現(xiàn)大模型它還有哪些不足的地方。”
除AI醫(yī)療領域外,澳鵬的數據標注服務已覆蓋具身智能、大模型、自動駕駛等多個前沿領域。憑借數據標注領域的領先技術積累,企業(yè)近五年復合營收增長率高達90%,2025年營收超7億元,服務客戶覆蓋國內頭部AI企業(yè)、互聯(lián)網公司及車聯(lián)網企業(yè)。
澳鵬數據客戶服務部高級總監(jiān)王芳說:“數據標注就是教AI去理解這個世界。我們前期會教AI去認圖去識字?,F(xiàn)在,我們更多的是在為AI編寫高階的思維教科書。在技術專家這塊,我們是有代碼、金融、醫(yī)療、法律等十大垂類的專家人才。其中,醫(yī)療團隊有500多人,有15%的人都是有執(zhí)業(yè)醫(yī)師資格證?!?/p>
為助推更多數據企業(yè)提速發(fā)展,今年,江蘇正式啟動全省首批2110家數據企業(yè)入庫培育工作,標志著江蘇數據企業(yè)培育體系全面落地。以無錫為代表,當地目前已建成70個高質量數據集,覆蓋工業(yè)制造、醫(yī)療健康、智慧交通等14個重點行業(yè)領域;集聚數據標注企業(yè)25家,產業(yè)營收達44.8億元,其中僅數據標注業(yè)務營收就突破7.4億元。
無錫市數據局副局長袁祿來說:“堅持‘人工智能+’行動到哪里,高質量數據集建設和應用就跟到哪里。今年,我們計劃新增高質量數據集100個、新招引25家數據標注企業(yè),力爭數據標注產業(yè)規(guī)模增速能突破60%,爭創(chuàng)國家級數據標注產業(yè)創(chuàng)新試驗區(qū)?!?/p>
去年以來,江蘇加快推動“人工智能+”行動,推動人工智能賦能科學研究、產業(yè)發(fā)展、新興產業(yè)、消費提質、民生服務、社會治理和對外合作7大領域,持續(xù)加大數據資源供給,推動高質量數據集、語料庫開放共享與流通交易。針對數據產業(yè),江蘇專門出臺“發(fā)展數據標注產業(yè)建設高質量數據集”實施方案,明確到2027年底,江蘇將建成全國領先、全球具有影響力的數據標注產業(yè)集群,產業(yè)規(guī)模全國占比超10%,年均復合增長率超20%,為人工智能高質量發(fā)展提供強勁數據支撐。
記者│江蘇廣電總臺荔枝新聞中心
黃蒙 李澤灝
記者│江蘇廣電總臺無錫中心站
路明杰
編輯│江蘇廣電總臺荔枝新聞中心
張萌