藍海沙龍|第272期:“我國大模型中文語料庫的發(fā)展現(xiàn)狀與高質量發(fā)展路徑”研討會在京召開
2024年04月07日 17:00
4月3日,由中國互聯(lián)網(wǎng)協(xié)會主辦,中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會協(xié)辦的第272期藍海沙龍——“我國大模型中文語料庫的發(fā)展現(xiàn)狀與高質量發(fā)展路徑”研討會在京召開。北京師范大學新聞傳播學院教授、媒體融合與數(shù)字出版研究中心主任秦艷華,北京師范大學互聯(lián)網(wǎng)發(fā)展研究院院長助理吳沈括,北京外國語大學信息科學技術學院副教授徐月梅,中國信息通信研究院人工智能研究中心研究員燕江依,首都版權協(xié)會副秘書長、動漫與游戲工作委員會秘書長楊志勇,中電信人工智能科技有限公司AI研發(fā)中心資深算法工程師趙宇,中國電信集團數(shù)據(jù)發(fā)展中心生態(tài)合作總監(jiān)李鵬飛,中國聯(lián)通研究院研究員趙燦,古聯(lián)(北京)數(shù)字傳媒科技有限公司總經(jīng)理洪濤,阿里研究院高級行業(yè)研究專家王崢,抖音集團數(shù)據(jù)及隱私法務總監(jiān)高震等參加會議并發(fā)言。會議由中國互聯(lián)網(wǎng)協(xié)會副秘書長裴瑋和北京智源人工智能研究院數(shù)據(jù)研究組負責人張正主持。
裴瑋表示,2022年全球大模型迎來了爆發(fā)增長,總體看我國在大模型領域取得了一定的成就,但仍面臨著一些挑戰(zhàn),其中最顯著的問題之一就是高質量中文語料資源的短缺。以ChatGPT為例,訓練數(shù)據(jù)中文資料比重不足千分之一。高質量中文語料庫的不足,導致國內許多從事大模型開發(fā)的研究機構和企業(yè)在進行模型訓練時,不得不依賴于外文標注數(shù)據(jù)集、開源數(shù)據(jù)集或是爬取網(wǎng)絡數(shù)據(jù)。鑒于此,探索我國大模型中文語料庫的高質量發(fā)展路徑,對于大模型行業(yè)的未來發(fā)展具有重要意義和價值。本次研討會主要就我國大模型中文語料庫的發(fā)展現(xiàn)狀、面臨的形式、任務及其高質量發(fā)展路徑等進行探討。
張正表示,在過去幾年時間內,模型的參數(shù)規(guī)模增長給性能帶來了一定提升,但訓練數(shù)據(jù)的質量和組織形式對模型性能的提升帶來了更大的幫助。數(shù)據(jù)工作已經(jīng)成為大模型行業(yè)中最受關注的一個任務,在模型規(guī)模不變的前提下,數(shù)據(jù)的變化能夠讓模型效果得到非常大的提升。模型參數(shù)量越大,數(shù)量越多,能力越強。一些科學家提出,大模型的本質是對數(shù)據(jù)做無損壓縮,目前各家大模型公司的一個核心任務就是,如何對數(shù)據(jù)做有效清洗,以及如何更進一步人工合成一些高價值數(shù)據(jù),從數(shù)據(jù)層面提升模型的性能。
王崢表示,大模型訓練所需要的語料具有“廣”“齊”“?!钡奶攸c,訓練過程并不依賴個人信息。模型語料需要政府和社會力量更好地協(xié)同。在政府側進一步加強應用于訓練的公共數(shù)據(jù)開放,特別是具有科研屬性的公共數(shù)據(jù),同時鼓勵社會力量參訓練公共數(shù)據(jù)集的開發(fā)建設,通過多方參與機制提高訓練數(shù)據(jù)質量和安全性。對于受財政支持的科研和文化單位所有的知識產(chǎn)權類數(shù)據(jù),鼓勵通過開放、共享等方式向社會公開,基于非營利性成本補償原則明確合理收費標準。低質量的語料可以用數(shù)據(jù)治理的標準來去劣,而高質量語料很難有統(tǒng)一的客觀標準去衡量,應該交給市場機制去嘗試和探索,不要預設前置標準。
高震表示,語料數(shù)據(jù)的權利清潔性是語料庫建設、流通和使用的重要合規(guī)前提,個人信息、知識產(chǎn)權等法律規(guī)則的因應完善,安全合規(guī)技術的配套發(fā)展,以及協(xié)會引導下的行業(yè)自律和標準化建設三管齊下,預期能夠更好地解決相關難題。
洪濤表示,關于古籍文獻和語料庫的基本情況,我國現(xiàn)存古籍大概20萬種,50萬版本。整個古籍數(shù)字化的用字量大,普及難度大,中文古籍語料庫內容多,但是高質量古籍數(shù)據(jù)稀缺。古籍領域大模型垂直應用場景包括古文應用場景和傳統(tǒng)文化的場景。古文應用場景更多地用于古籍整理和學術研究,傳統(tǒng)文化的場景應用于文化普及。要想對這兩個場景更好的服務,要綜合訓練古籍和現(xiàn)代文獻才能實現(xiàn)傳統(tǒng)文化內容創(chuàng)新性應用。
趙燦表示,我國大模型及中文語料庫建設上雖有成果但面臨總量不足、分布不均、垂直覆蓋有限、質量參差不齊等挑戰(zhàn),尤其是優(yōu)質、專業(yè)、多元的中文數(shù)據(jù)供給存在明顯短板。建議在國家相關政策引導下,建設數(shù)據(jù)流動和交易特區(qū),推動跨行業(yè)數(shù)據(jù)資產(chǎn)入表,強化跨域數(shù)據(jù)服務的深度融合,同時不斷完善數(shù)據(jù)撮合交易機制與基礎設施建設,示范引領數(shù)據(jù)資產(chǎn)產(chǎn)業(yè)發(fā)展,為構建高質量的大模型中文語料庫提供有力支撐。
李鵬飛表示,隨著人工智能大模型在各領域各場景加速落地,大模型訓練數(shù)據(jù)語料的價值日益凸顯,正成為影響大模型應用效果的關鍵因素。當前,大模型訓練語料在數(shù)據(jù)獲取、數(shù)據(jù)質量、數(shù)據(jù)處理、數(shù)據(jù)隱私和安全等方面還有諸多問題有待解決。需要行業(yè)伙伴共同探索數(shù)據(jù)合作機制與商業(yè)模式,推動數(shù)據(jù)資源在合規(guī)前提下的開放共享,構建大模型語料質量評價體系,打造安全可信的數(shù)據(jù)處理基礎設施,共同推動人工智能行業(yè)高質量發(fā)展。
趙宇表示,大模型語料庫的建設離不開高質量的數(shù)據(jù)解析和清洗,需要大量的人力和算力投入。如何更好地評估數(shù)據(jù)價值和數(shù)據(jù)成本,是建設數(shù)據(jù)共享生態(tài)的關鍵。因此,建議發(fā)揮國家宏觀調配優(yōu)勢,從國家層面建立統(tǒng)一的數(shù)據(jù)機關、數(shù)據(jù)平臺,完善法律法規(guī),設置激勵政策,統(tǒng)一數(shù)據(jù)質量標準,從而促進數(shù)據(jù)市場繁榮。
楊志勇表示,隨著人工智能時代的來臨,建設好中文語料庫尤為重要,應突出“兩量”和“一護”?!皟闪俊币皇强尚诺闹形奈谋緮?shù)量,二是文本內容的質量;“一護”是版權護航,才能行穩(wěn)致遠。
燕江依表示,在大模型時代,海量、高質量、多樣化的訓練數(shù)據(jù)集,成為拉開能力差距的關鍵要素。通過添加數(shù)據(jù)標記、清洗和轉換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護數(shù)據(jù)等手段,形成優(yōu)質的標準化數(shù)據(jù)集和完備的數(shù)據(jù)全生命周期管理體系。人工智能高質量數(shù)據(jù)集應滿足為可靠性、準確性、完整性、多樣性、標注精確性、安全性、均衡性、及時性等八大特征。建議聯(lián)動各方生態(tài)力量,完善人工智能數(shù)據(jù)生態(tài)服務,推動人工智能高質量數(shù)據(jù)集建設發(fā)展。
徐月梅表示,大語言模型的多語言能力參差不齊,迫切需要提升大語言模型的中文語言能力。訓練語料的清洗程度、多樣性、規(guī)模大小對模型的性能有重要影響。建設高質量中文訓練語料是關鍵,如何評價語料的高質量,值得探究。
吳沈括表示,作為全球業(yè)內共識,語料數(shù)據(jù)的質量,決定了人工智能算法的水平以及大模型的水準。在當下國際數(shù)據(jù)治理時代背景下,各個國家和地區(qū)都十分重視語料生態(tài)的培育建設,包括通過制定出臺相關的政策法規(guī)作出系統(tǒng)的正向促動。就現(xiàn)實而言,中文語料的建設具有顯著的現(xiàn)實意義和緊迫性,其過程需要注重考慮數(shù)據(jù)質量、權益保護以及行業(yè)生態(tài)等多重價值。一方面,要提高數(shù)據(jù)等要素資源的供給水平,包括深度挖掘公共數(shù)據(jù)的價值潛力。另一方面,要持續(xù)提高語料數(shù)據(jù)的質量要求,包括必要的基礎設施支撐和技術標準指引。同時,也要培育壯大行業(yè)生態(tài)水準,通過推動千行百業(yè)的融合與交互,憑借全面、有效的激勵機制,提升中文語料建設工作的可持續(xù)發(fā)展能力。
秦艷華表示,高質量中文語料庫建設勢在必行,希望由相關部門或協(xié)會或公益組織籌集人力、物力、財力,集中搭建全國最具影響力的中文語料庫平臺,構建通用大語言模型,并開源,免費供大家使用。
通過各界專家的研討發(fā)現(xiàn),在大模型時代,數(shù)據(jù)成為新一輪人工智能競爭的壁壘與制高點,我國大模型及中文語料庫建設上雖有成果,但仍面臨總量不足、分布不均、垂直覆蓋有限、質量參差不齊等挑戰(zhàn)。建議從國家層面建立統(tǒng)一的數(shù)據(jù)機關、數(shù)據(jù)平臺,完善法律法規(guī),設置激勵政策,鼓勵社會力量參與訓練公共數(shù)據(jù)集的開發(fā)。行業(yè)協(xié)會主動引導行業(yè)自律,開展相關標準化建設,提高行業(yè)生態(tài)水準,共同推動高質量中文語料庫的建設。