藍海沙龍｜第272期：“我國大模型中文語料庫的發(fā)展現(xiàn)狀與高質量發(fā)展路徑”研討會在京召開

2024年04月07日 17:00

4月3日，由中國互聯(lián)網(wǎng)協(xié)會主辦，中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會協(xié)辦的第272期藍海沙龍——“我國大模型中文語料庫的發(fā)展現(xiàn)狀與高質量發(fā)展路徑”研討會在京召開。北京師范大學新聞傳播學院教授、媒體融合與數(shù)字出版研究中心主任秦艷華，北京師范大學互聯(lián)網(wǎng)發(fā)展研究院院長助理吳沈括，北京外國語大學信息科學技術學院副教授徐月梅，中國信息通信研究院人工智能研究中心研究員燕江依，首都版權協(xié)會副秘書長、動漫與游戲工作委員會秘書長楊志勇，中電信人工智能科技有限公司AI研發(fā)中心資深算法工程師趙宇，中國電信集團數(shù)據(jù)發(fā)展中心生態(tài)合作總監(jiān)李鵬飛，中國聯(lián)通研究院研究員趙燦，古聯(lián)（北京）數(shù)字傳媒科技有限公司總經(jīng)理洪濤，阿里研究院高級行業(yè)研究專家王崢，抖音集團數(shù)據(jù)及隱私法務總監(jiān)高震等參加會議并發(fā)言。會議由中國互聯(lián)網(wǎng)協(xié)會副秘書長裴瑋和北京智源人工智能研究院數(shù)據(jù)研究組負責人張正主持。

裴瑋表示，2022年全球大模型迎來了爆發(fā)增長，總體看我國在大模型領域取得了一定的成就，但仍面臨著一些挑戰(zhàn)，其中最顯著的問題之一就是高質量中文語料資源的短缺。以ChatGPT為例，訓練數(shù)據(jù)中文資料比重不足千分之一。高質量中文語料庫的不足，導致國內許多從事大模型開發(fā)的研究機構和企業(yè)在進行模型訓練時，不得不依賴于外文標注數(shù)據(jù)集、開源數(shù)據(jù)集或是爬取網(wǎng)絡數(shù)據(jù)。鑒于此，探索我國大模型中文語料庫的高質量發(fā)展路徑，對于大模型行業(yè)的未來發(fā)展具有重要意義和價值。本次研討會主要就我國大模型中文語料庫的發(fā)展現(xiàn)狀、面臨的形式、任務及其高質量發(fā)展路徑等進行探討。

張正表示，在過去幾年時間內，模型的參數(shù)規(guī)模增長給性能帶來了一定提升，但訓練數(shù)據(jù)的質量和組織形式對模型性能的提升帶來了更大的幫助。數(shù)據(jù)工作已經(jīng)成為大模型行業(yè)中最受關注的一個任務，在模型規(guī)模不變的前提下，數(shù)據(jù)的變化能夠讓模型效果得到非常大的提升。模型參數(shù)量越大，數(shù)量越多，能力越強。一些科學家提出，大模型的本質是對數(shù)據(jù)做無損壓縮，目前各家大模型公司的一個核心任務就是，如何對數(shù)據(jù)做有效清洗，以及如何更進一步人工合成一些高價值數(shù)據(jù)，從數(shù)據(jù)層面提升模型的性能。

王崢表示，大模型訓練所需要的語料具有“廣”“齊”“?！钡奶攸c，訓練過程并不依賴個人信息。模型語料需要政府和社會力量更好地協(xié)同。在政府側進一步加強應用于訓練的公共數(shù)據(jù)開放，特別是具有科研屬性的公共數(shù)據(jù)，同時鼓勵社會力量參訓練公共數(shù)據(jù)集的開發(fā)建設，通過多方參與機制提高訓練數(shù)據(jù)質量和安全性。對于受財政支持的科研和文化單位所有的知識產(chǎn)權類數(shù)據(jù)，鼓勵通過開放、共享等方式向社會公開，基于非營利性成本補償原則明確合理收費標準。低質量的語料可以用數(shù)據(jù)治理的標準來去劣，而高質量語料很難有統(tǒng)一的客觀標準去衡量，應該交給市場機制去嘗試和探索，不要預設前置標準。

高震表示，語料數(shù)據(jù)的權利清潔性是語料庫建設、流通和使用的重要合規(guī)前提，個人信息、知識產(chǎn)權等法律規(guī)則的因應完善，安全合規(guī)技術的配套發(fā)展，以及協(xié)會引導下的行業(yè)自律和標準化建設三管齊下，預期能夠更好地解決相關難題。

洪濤表示，關于古籍文獻和語料庫的基本情況，我國現(xiàn)存古籍大概20萬種，50萬版本。整個古籍數(shù)字化的用字量大，普及難度大，中文古籍語料庫內容多，但是高質量古籍數(shù)據(jù)稀缺。古籍領域大模型垂直應用場景包括古文應用場景和傳統(tǒng)文化的場景。古文應用場景更多地用于古籍整理和學術研究，傳統(tǒng)文化的場景應用于文化普及。要想對這兩個場景更好的服務，要綜合訓練古籍和現(xiàn)代文獻才能實現(xiàn)傳統(tǒng)文化內容創(chuàng)新性應用。

趙燦表示，我國大模型及中文語料庫建設上雖有成果但面臨總量不足、分布不均、垂直覆蓋有限、質量參差不齊等挑戰(zhàn)，尤其是優(yōu)質、專業(yè)、多元的中文數(shù)據(jù)供給存在明顯短板。建議在國家相關政策引導下，建設數(shù)據(jù)流動和交易特區(qū)，推動跨行業(yè)數(shù)據(jù)資產(chǎn)入表，強化跨域數(shù)據(jù)服務的深度融合，同時不斷完善數(shù)據(jù)撮合交易機制與基礎設施建設，示范引領數(shù)據(jù)資產(chǎn)產(chǎn)業(yè)發(fā)展，為構建高質量的大模型中文語料庫提供有力支撐。

李鵬飛表示，隨著人工智能大模型在各領域各場景加速落地，大模型訓練數(shù)據(jù)語料的價值日益凸顯，正成為影響大模型應用效果的關鍵因素。當前，大模型訓練語料在數(shù)據(jù)獲取、數(shù)據(jù)質量、數(shù)據(jù)處理、數(shù)據(jù)隱私和安全等方面還有諸多問題有待解決。需要行業(yè)伙伴共同探索數(shù)據(jù)合作機制與商業(yè)模式，推動數(shù)據(jù)資源在合規(guī)前提下的開放共享，構建大模型語料質量評價體系，打造安全可信的數(shù)據(jù)處理基礎設施，共同推動人工智能行業(yè)高質量發(fā)展。

趙宇表示，大模型語料庫的建設離不開高質量的數(shù)據(jù)解析和清洗，需要大量的人力和算力投入。如何更好地評估數(shù)據(jù)價值和數(shù)據(jù)成本，是建設數(shù)據(jù)共享生態(tài)的關鍵。因此，建議發(fā)揮國家宏觀調配優(yōu)勢，從國家層面建立統(tǒng)一的數(shù)據(jù)機關、數(shù)據(jù)平臺，完善法律法規(guī)，設置激勵政策，統(tǒng)一數(shù)據(jù)質量標準，從而促進數(shù)據(jù)市場繁榮。

楊志勇表示，隨著人工智能時代的來臨，建設好中文語料庫尤為重要，應突出“兩量”和“一護”?！皟闪俊币皇强尚诺闹形奈谋緮?shù)量，二是文本內容的質量；“一護”是版權護航，才能行穩(wěn)致遠。

燕江依表示，在大模型時代，海量、高質量、多樣化的訓練數(shù)據(jù)集，成為拉開能力差距的關鍵要素。通過添加數(shù)據(jù)標記、清洗和轉換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護數(shù)據(jù)等手段，形成優(yōu)質的標準化數(shù)據(jù)集和完備的數(shù)據(jù)全生命周期管理體系。人工智能高質量數(shù)據(jù)集應滿足為可靠性、準確性、完整性、多樣性、標注精確性、安全性、均衡性、及時性等八大特征。建議聯(lián)動各方生態(tài)力量，完善人工智能數(shù)據(jù)生態(tài)服務，推動人工智能高質量數(shù)據(jù)集建設發(fā)展。

徐月梅表示，大語言模型的多語言能力參差不齊，迫切需要提升大語言模型的中文語言能力。訓練語料的清洗程度、多樣性、規(guī)模大小對模型的性能有重要影響。建設高質量中文訓練語料是關鍵，如何評價語料的高質量，值得探究。

吳沈括表示，作為全球業(yè)內共識，語料數(shù)據(jù)的質量，決定了人工智能算法的水平以及大模型的水準。在當下國際數(shù)據(jù)治理時代背景下，各個國家和地區(qū)都十分重視語料生態(tài)的培育建設，包括通過制定出臺相關的政策法規(guī)作出系統(tǒng)的正向促動。就現(xiàn)實而言，中文語料的建設具有顯著的現(xiàn)實意義和緊迫性，其過程需要注重考慮數(shù)據(jù)質量、權益保護以及行業(yè)生態(tài)等多重價值。一方面，要提高數(shù)據(jù)等要素資源的供給水平，包括深度挖掘公共數(shù)據(jù)的價值潛力。另一方面，要持續(xù)提高語料數(shù)據(jù)的質量要求，包括必要的基礎設施支撐和技術標準指引。同時，也要培育壯大行業(yè)生態(tài)水準，通過推動千行百業(yè)的融合與交互，憑借全面、有效的激勵機制，提升中文語料建設工作的可持續(xù)發(fā)展能力。

秦艷華表示，高質量中文語料庫建設勢在必行，希望由相關部門或協(xié)會或公益組織籌集人力、物力、財力，集中搭建全國最具影響力的中文語料庫平臺，構建通用大語言模型，并開源，免費供大家使用。

通過各界專家的研討發(fā)現(xiàn)，在大模型時代，數(shù)據(jù)成為新一輪人工智能競爭的壁壘與制高點，我國大模型及中文語料庫建設上雖有成果，但仍面臨總量不足、分布不均、垂直覆蓋有限、質量參差不齊等挑戰(zhàn)。建議從國家層面建立統(tǒng)一的數(shù)據(jù)機關、數(shù)據(jù)平臺，完善法律法規(guī)，設置激勵政策，鼓勵社會力量參與訓練公共數(shù)據(jù)集的開發(fā)。行業(yè)協(xié)會主動引導行業(yè)自律，開展相關標準化建設，提高行業(yè)生態(tài)水準，共同推動高質量中文語料庫的建設。

亚洲v欧美v国产v在线观看_99香蕉国产精品偷在线观看_久久夜色精品国产噜噜亚洲sv_天堂无码人妻精品av一区_国产免费内射又粗又爽密桃视频

當前位置

藍海沙龍｜第272期：“我國大模型中文語料庫的發(fā)展現(xiàn)狀與高質量發(fā)展路徑”研討會在京召開

聯(lián)系我們

郵編

郵箱

地址

綜合部(黨群部)

國際部

監(jiān)管支撐部

會展部

創(chuàng)新發(fā)展與人才工作部

會員部

宣傳部

網(wǎng)民權益保護部

研究部

北京中互網(wǎng)來信息技術有限公司

友情鏈接