人工智能大模型預(yù)訓(xùn)練語料數(shù)據(jù)的合規(guī)
作者:吳衛(wèi)明 2025-01-22大語言模型(Large Language Model)通常是指具有大規(guī)模參數(shù)和運算能力的自然語言處理模型,算法、算力與數(shù)據(jù),是支撐大模型發(fā)展的三大基石。而模型預(yù)訓(xùn)練過程中的海量數(shù)據(jù),被認(rèn)為是決定模型能力的核心要素之一。
大模型訓(xùn)練過程中,通過對詞語序列的概率相關(guān)性分布的建模,語料數(shù)據(jù)及參數(shù)經(jīng)過模型的加工、分析和多輪推理演算,最終形成對于語料關(guān)系的判斷模型和預(yù)測模型。即以語句中詞匯的組合作為輸入條件,預(yù)測后續(xù)不同詞匯出現(xiàn)的概率分布。因此,語料數(shù)據(jù)對于大模型的基礎(chǔ)能力具有重要的影響。某種意義上講,輸出來自于訓(xùn)練時的數(shù)據(jù)輸入。盡管由于不同數(shù)據(jù)、不同參數(shù)對于模型的影響機制仍難以通過量化的方式說明,產(chǎn)生了算法及模型的“黑箱效應(yīng)”,但訓(xùn)練數(shù)據(jù)對于模型的影響機制仍然是客觀存在的。
對于大模型研發(fā)企業(yè)而言,規(guī)范大模型的訓(xùn)練過程,預(yù)訓(xùn)練語料數(shù)據(jù)的合規(guī)無疑是最為重要的方面之一。
一、預(yù)訓(xùn)練數(shù)據(jù)的來源及分類
通常而言,考慮到大模型作為一種基礎(chǔ)語言模型,語料數(shù)據(jù)來源應(yīng)具有廣泛性。以Chat-GPT為例,其語料數(shù)據(jù)集就包括了維基百科的網(wǎng)頁數(shù)據(jù)、各類書籍、雜志期刊等,還包括其他專門的開源數(shù)據(jù)集,比如Common Crawl,以及GitHub等代碼數(shù)據(jù)集。豐富的數(shù)據(jù)集有助于提升模型理解、對話交流和多模態(tài)信息處理等方面的能力。由于數(shù)據(jù)在不同國家、不同法域、不同領(lǐng)域、不同行業(yè)有不同的規(guī)則,因此,有必要對于預(yù)訓(xùn)練數(shù)據(jù)集的進行分類,從而對其合規(guī)性予以判斷。
1、依據(jù)數(shù)據(jù)來源所進行的分類
(1)開源數(shù)據(jù)集
境外的常見開源數(shù)據(jù)集包括Common Crawl等開源數(shù)據(jù)集,Common Crawl是一個大型的網(wǎng)站抓取數(shù)據(jù)集,包含原始網(wǎng)頁、元數(shù)據(jù)和文本等語料提取數(shù)據(jù)。當(dāng)前境內(nèi)也有不同機構(gòu)推出了相應(yīng)的人工智能預(yù)訓(xùn)練開源數(shù)據(jù)集,隨著我國對于開源訓(xùn)練語料數(shù)據(jù)平臺的鼓勵政策,此類平臺也會逐漸成熟。
(2)公開網(wǎng)頁爬取數(shù)據(jù)
網(wǎng)頁爬取數(shù)據(jù)是大模型企業(yè)重要的數(shù)據(jù)來源,通過自動化程序復(fù)制目標(biāo)網(wǎng)頁的文章、圖片等網(wǎng)頁內(nèi)容,是獲取網(wǎng)頁數(shù)據(jù)的重要方法[1]。對于公開網(wǎng)頁爬取方式獲取數(shù)據(jù)的做法,在實踐中存在一定的爭議。比如對于作品的合理使用、數(shù)據(jù)合理使用等問題。
(3)第三方商業(yè)數(shù)據(jù)集
第三方商業(yè)數(shù)據(jù)集一般是指以有償方式所獲取的來自于專業(yè)數(shù)據(jù)服務(wù)商的語料數(shù)據(jù),此類數(shù)據(jù)包括通過公開途徑無法獲取的數(shù)據(jù),或者直接通過網(wǎng)頁爬取方式存在一定風(fēng)險的數(shù)據(jù)。以有償方式獲取,一方面可以解決數(shù)據(jù)的權(quán)屬或者知識產(chǎn)權(quán)問題,另一方面,也可以獲取經(jīng)過加工的高質(zhì)量數(shù)據(jù)。
(4)企業(yè)自采數(shù)據(jù)
對于擁有豐富業(yè)務(wù)場景的大模型開發(fā)企業(yè)而言,自采數(shù)據(jù)是其預(yù)訓(xùn)練語料的重要來源之一。比如一些搜索類企業(yè),即擁有大量的文本類數(shù)據(jù)。對于經(jīng)營社交類應(yīng)用或社交媒體的企業(yè),則會擁有大量的音視頻數(shù)據(jù)或者用戶行為數(shù)據(jù)。
2、依據(jù)預(yù)訓(xùn)練數(shù)據(jù)類型所進行的分類
(1)作品數(shù)據(jù)
作品數(shù)據(jù)是大模型訓(xùn)練中最為常見一種數(shù)據(jù),大模型在獲取語言知識和世界知識過程中,作品數(shù)據(jù)無疑是優(yōu)質(zhì)的訓(xùn)練語料。書籍、學(xué)術(shù)期刊、各類文章等都屬于作品數(shù)據(jù)。作品數(shù)據(jù)一般會存在作者或者相關(guān)機構(gòu)的著作權(quán)問題,如何協(xié)調(diào)模型訓(xùn)練與著作權(quán)之間的關(guān)系,成為各國立法和司法機構(gòu)面臨的新問題。
(2)個人信息
對于以合法方式獲取的個人信息,在符合個人信息處理目的的前提下,也可以用于大模型訓(xùn)練。當(dāng)然,由于個人信息的來源渠道豐富,在使用個人信息訓(xùn)練大模型的過程中,可能存在相應(yīng)的合規(guī)風(fēng)險。
(3)公共數(shù)據(jù)
公共數(shù)據(jù)包括政務(wù)數(shù)據(jù)等,由于不同國家和地區(qū)對于公共數(shù)據(jù)用于大模型訓(xùn)練有不同的開放政策,因此,在不同國家,大模型企業(yè)對于政務(wù)數(shù)據(jù)的使用或挖掘深度并不相同。但是隨著人們對于公共數(shù)據(jù)價值的日益重視,公共數(shù)據(jù)也將成為大模型訓(xùn)練數(shù)據(jù)的重要來源。
(4)企業(yè)數(shù)據(jù)
企業(yè)數(shù)據(jù)通常指與企業(yè)信息公開或經(jīng)營有關(guān)的數(shù)據(jù),基于鼓勵商事信息公開的通常做法,在各類信息公開的平臺,都可以看到大量的企業(yè)注冊信息和基本登記信息、經(jīng)營信息。此類信息經(jīng)過公開,一般不涉及商業(yè)秘密問題,從而成為風(fēng)險較低的數(shù)據(jù)類型。
(5)行業(yè)數(shù)據(jù)
對于特定行業(yè)而言,其數(shù)據(jù)在垂直類大模型訓(xùn)練中擁有較高的價值。這些領(lǐng)域包括健康醫(yī)療領(lǐng)域、金融領(lǐng)域、交通領(lǐng)域等。由于不同行業(yè)領(lǐng)域均有其特定的法規(guī)與監(jiān)管規(guī)則,因而特定行業(yè)領(lǐng)域的數(shù)據(jù)用于大模型訓(xùn)練,除了遵循一般規(guī)則外,還應(yīng)關(guān)注行業(yè)的相應(yīng)規(guī)則。
二、預(yù)訓(xùn)練數(shù)據(jù)合規(guī)的立法概況
1、早期立法框架構(gòu)建
2017年7月8日,國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》。在保障措施提到“制定促進人工智能發(fā)展的法律法規(guī)和倫理規(guī)范”。開展與人工智能應(yīng)用相關(guān)的民事與刑事責(zé)任確認(rèn)、隱私和產(chǎn)權(quán)保護、信息安全利用等法律問題研究。加大對數(shù)據(jù)濫用、侵犯個人隱私、違背道德倫理等行為的懲戒力度。
2021年9月17日,國家互聯(lián)網(wǎng)信息辦公室、中央宣傳部、教育部、科學(xué)技術(shù)部、工業(yè)和信息化部、公安部、文化和旅游部、國家市場監(jiān)督管理總局、國家廣播電視總局等九部委制定發(fā)布了《關(guān)于加強互聯(lián)網(wǎng)信息服務(wù)算法綜合治理的指導(dǎo)意見》。其中指出,對算法的數(shù)據(jù)使用、應(yīng)用場景、影響效果等開展日常監(jiān)測工作,感知算法應(yīng)用帶來的網(wǎng)絡(luò)傳播趨勢、市場規(guī)則變化、網(wǎng)民行為等信息,預(yù)警算法應(yīng)用可能產(chǎn)生的不規(guī)范、不公平、不公正等隱患,發(fā)現(xiàn)算法應(yīng)用安全問題。
早期的立法中,已經(jīng)開始關(guān)注數(shù)據(jù)安全與合規(guī),并突出隱私保護等問題,但并未專門針對預(yù)訓(xùn)練數(shù)據(jù)的合規(guī)進行規(guī)定。[2]
2、逐漸突出對于數(shù)據(jù)合規(guī)的針對性
2021年11月16日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》。算法推薦服務(wù)提供者應(yīng)當(dāng)落實算法安全主體責(zé)任,建立健全算法機制機理審核、科技倫理審查、用戶注冊、信息發(fā)布審核、數(shù)據(jù)安全和個人信息保護、反電信網(wǎng)絡(luò)詐騙、安全評估監(jiān)測、安全事件應(yīng)急處置等管理制度和技術(shù)措施,制定并公開算法推薦服務(wù)相關(guān)規(guī)則。并明確將《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個人信息保護法》、《互聯(lián)網(wǎng)信息服務(wù)管理辦法》等法律、行政法規(guī),作為辦法的制定依據(jù)。
此外,還規(guī)定算法推薦服務(wù)提供者應(yīng)當(dāng)加強用戶模型和用戶標(biāo)簽管理,完善記入用戶模型的興趣點規(guī)則和用戶標(biāo)簽管理規(guī)則,不得將違法和不良信息關(guān)鍵詞記入用戶興趣點或者作為用戶標(biāo)簽并據(jù)以推送信息。[3]
這一階段的立法,根據(jù)數(shù)據(jù)安全法及個人信息保護法的要求,在數(shù)據(jù)安全與個人信息保護方面確立了基本的要求
3、突出訓(xùn)練數(shù)據(jù)的合規(guī)
2022年11月3日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》。該規(guī)定第十條專門對輸入數(shù)據(jù)進行了規(guī)范,服務(wù)提供者應(yīng)當(dāng)加強深度合成內(nèi)容管理,采取技術(shù)或者人工方式對深度合成服務(wù)使用者的輸入數(shù)據(jù)和合成結(jié)果進行審核。
該規(guī)定還在第十四條專門規(guī)定了服務(wù)提供者和技術(shù)支持者應(yīng)當(dāng)加強訓(xùn)練數(shù)據(jù)管理,采取必要措施保障訓(xùn)練數(shù)據(jù)安全;訓(xùn)練數(shù)據(jù)包含個人信息的,應(yīng)當(dāng)遵守個人信息保護的有關(guān)規(guī)定。
在2023年8月15日國家互聯(lián)網(wǎng)信息辦公室發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》中,則明確了預(yù)訓(xùn)練數(shù)據(jù)的合規(guī)要求。該辦法第七條規(guī)定,生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動:(一)使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型;(二)涉及知識產(chǎn)權(quán)的,不得侵害他人依法享有的知識產(chǎn)權(quán);(三)涉及個人信息的,應(yīng)當(dāng)取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形;(四)采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,增強訓(xùn)練數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性、多樣性。
除了預(yù)訓(xùn)練數(shù)據(jù)外,該辦第八條還對數(shù)據(jù)標(biāo)注進行了規(guī)范,在生成式人工智能技術(shù)研發(fā)過程中進行數(shù)據(jù)標(biāo)注的,提供者應(yīng)當(dāng)制定符合本辦法要求的清晰、具體、可操作的標(biāo)注規(guī)則;開展數(shù)據(jù)標(biāo)注質(zhì)量評估,抽樣核驗標(biāo)注內(nèi)容的準(zhǔn)確性;對標(biāo)注人員進行必要培訓(xùn),提升尊法守法意識,監(jiān)督指導(dǎo)標(biāo)注人員規(guī)范開展標(biāo)注工作。
總體而言,這一階段的立法已經(jīng)重點關(guān)注預(yù)訓(xùn)練數(shù)據(jù)的合規(guī),并將預(yù)訓(xùn)練數(shù)據(jù)的合規(guī)作為生成式人工智能監(jiān)管的重要內(nèi)容。
三、不同預(yù)訓(xùn)練數(shù)據(jù)的基本合規(guī)要求
1、個人信息數(shù)據(jù)
大模型預(yù)訓(xùn)練中的個人信息數(shù)據(jù)的合規(guī)問題,仍應(yīng)遵循個人信息保護法的有關(guān)規(guī)則。
(1)首先還是應(yīng)遵循合法、正當(dāng)、最小化原則。最小化原則而言,對應(yīng)的是個人信息保護法的必要原則,只應(yīng)收集必要的數(shù)據(jù),即與模型訓(xùn)練和功能實現(xiàn)密切相關(guān)的數(shù)據(jù),避免無關(guān)數(shù)據(jù)的收集;即便是為了提高模型的表現(xiàn),也不能在沒有明確理由的情況下收集額外的個人信息。
(2)知情同意原則也需要予以重視。雖然大模型訓(xùn)練可能并不關(guān)注數(shù)據(jù)的個體顆粒度和識別度,但是特定領(lǐng)域數(shù)據(jù)個體顆粒度的保留依然是需要的。因此,涉及能夠識別到個人信息信息,或者保持一定個體顆粒度的信息,仍然需要適用個人信息保護的知情同意原則。對于無需保留個體顆粒度的數(shù)據(jù),則應(yīng)通過匿名化的方式來降低個人信息合規(guī)風(fēng)險。
(3)公開收集數(shù)據(jù)集,則需要關(guān)注個人信息的合理利用問題。一般而言,由于模型訓(xùn)練本身并不涉及個人信息的對外利用和轉(zhuǎn)讓,因而此類使用具有一定合理性。
(4)對于開源數(shù)據(jù)集或者來自于第三方的商業(yè)數(shù)據(jù),則需要關(guān)注其中所包含個人信息的來源及合規(guī)性。如果這些數(shù)據(jù)本身是公開數(shù)據(jù),則需要關(guān)注合理使用問題。如果其中的個人信息不能說明來源,則需要重點關(guān)注其合規(guī)性,以及是否符合知情同意原則。
(5)生命周期安全與刪除,也是個人信息數(shù)據(jù)用于大模型預(yù)訓(xùn)練需要考慮的問題。研發(fā)企業(yè)應(yīng)采取技術(shù)與管理措施,保證個人信息數(shù)據(jù)全生命周期的安全。設(shè)定數(shù)據(jù)的保留期限,超出這一期限就應(yīng)啟動刪除流程。
2、用戶反饋數(shù)據(jù)合規(guī)
用戶反饋數(shù)據(jù)雖然并不屬于大模型預(yù)訓(xùn)練階段的數(shù)據(jù),但是屬于模型訓(xùn)練的反饋過程,對于優(yōu)化模型具有重要的作用。對于用戶反饋數(shù)據(jù)優(yōu)化模型,也同樣需要符合知情同意原則,數(shù)據(jù)具有用戶的授權(quán)記錄,將收集用戶輸入內(nèi)容的情況以及數(shù)據(jù)使用和拒絕的方式以顯著的方式告知。
對于以toB方式部署的大模型應(yīng)用,收集來自于B端用戶的數(shù)據(jù),如果數(shù)據(jù)權(quán)益歸屬于用戶,則同樣應(yīng)遵循用戶知情同意的原則。對于B端用戶的最終個人用戶,也需要明確告知數(shù)據(jù)收集主體,并取得最終個人用戶同意。
3、公開爬取數(shù)據(jù)的合規(guī)
如前所述,通過自動化程序爬取公開網(wǎng)頁數(shù)據(jù),是大模型預(yù)訓(xùn)練數(shù)據(jù)的重要來源之一。針對此類數(shù)據(jù)獲取行為,也引發(fā)了不少爭議。部分平臺的運營者認(rèn)為,網(wǎng)頁數(shù)據(jù)包含其版權(quán)或者競爭性財產(chǎn)權(quán)益,而模型訓(xùn)練本身是商業(yè)行為,從而使用公開網(wǎng)頁數(shù)據(jù)可能會構(gòu)成侵犯著作權(quán)或者不正當(dāng)競爭。
此外,由于部分網(wǎng)絡(luò)通過Robots協(xié)議或者反爬蟲技術(shù)措施限制數(shù)據(jù)的爬取,并且也已經(jīng)發(fā)生過因為爬取數(shù)據(jù)而產(chǎn)生的刑事案件。數(shù)據(jù)爬取,可能會涉及刑法285條第二款的適用,即該種行為可能會被認(rèn)定構(gòu)成“非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪”。[4]
筆者認(rèn)為,從當(dāng)前的實踐來看,爬取的公開網(wǎng)頁數(shù)據(jù)是大模型預(yù)訓(xùn)練重要數(shù)據(jù)來源,而數(shù)據(jù)爬取作為一種技術(shù)措施,本身并不構(gòu)成違法。而是需要根據(jù)不同情形具體判斷,并采取必要的合規(guī)措施。這些措施主要包括:
(1)從民事風(fēng)險的角度看,對于爬取的公開數(shù)據(jù)應(yīng)遵循合理使用原則,且其使用不應(yīng)具有非法目的。此外,爬取數(shù)據(jù)的使用方式,不對源網(wǎng)站/系統(tǒng)產(chǎn)生實質(zhì)性替代,或者具有替代性效果。此外,還應(yīng)關(guān)注網(wǎng)站法律聲明內(nèi)容及Robots協(xié)議的限制。
(2)從行政或刑事法律風(fēng)險角度看,爬取數(shù)據(jù)的過程應(yīng)關(guān)注爬取的流量和頻率,爬取過程不能影響網(wǎng)絡(luò)產(chǎn)品或者服務(wù)的正常運行和系統(tǒng)的正常功能。并且,原則上不應(yīng)采取技術(shù)措施繞過反爬蟲措施。此外,不應(yīng)通過破解網(wǎng)站、系統(tǒng)所采取的安全保護措施獲取后臺非公開數(shù)據(jù)。
4、作品數(shù)據(jù)使用的合規(guī)
在大模型預(yù)訓(xùn)練過程中,書籍、圖片、各類文章等作品數(shù)據(jù)是重要的數(shù)據(jù)類型。但是作品數(shù)據(jù)的利用,將會面臨是否屬于著作權(quán)合理使用的問題。我國《著作權(quán)法》采取的是“許可使用”的基本模式。如《著作權(quán)法》第二十四條列舉了可以不經(jīng)著作權(quán)人許可的幾種“合理使用”的具體情形。如“個人使用”、“適當(dāng)引用”和“學(xué)習(xí)研究使用”等,但這些規(guī)定難以直接覆蓋大模型訓(xùn)練中大規(guī)模復(fù)制和利用作品的商業(yè)化需求。因此,需要通過立法或者司法案例對于模型訓(xùn)練使用作品的情形進行界定,以便平衡著作權(quán)與人工智能發(fā)展的關(guān)系。由于這一問題較為復(fù)雜,作者將另行撰文,本處不做進一步展開。
5、公共數(shù)據(jù)合規(guī)
公共數(shù)據(jù)由于其數(shù)據(jù)類型豐富,且數(shù)據(jù)體量巨大,因而也成為大模型訓(xùn)練的潛在數(shù)據(jù)來源。隨著我國公共數(shù)據(jù)開放和授權(quán)運營體系的日益推進,公共數(shù)據(jù)用于大模型預(yù)訓(xùn)練的合規(guī)問題也日益凸顯。公共數(shù)據(jù)中包含企業(yè)數(shù)據(jù)、個人信息和其他數(shù)據(jù),也包含重要數(shù)據(jù)和國家秘密數(shù)據(jù)等。因此,公共數(shù)據(jù)用于大模型訓(xùn)練的合規(guī)性判斷較為復(fù)雜。應(yīng)遵循公開透明、規(guī)范管理、權(quán)責(zé)明確、風(fēng)險可控等基本原則。在合規(guī)措施方面,還應(yīng)遵循“原始數(shù)據(jù)不出域、數(shù)據(jù)可用不可見”的原則。此外,如果公共數(shù)據(jù)中涉及國家秘密的情況,相應(yīng)的數(shù)據(jù)集還應(yīng)遵循國家秘密保護有關(guān)法律法規(guī)。
對于公共數(shù)據(jù)中的個人信息、企業(yè)數(shù)據(jù)、其他類型的數(shù)據(jù),還應(yīng)遵循相應(yīng)領(lǐng)域數(shù)據(jù)合規(guī)的相應(yīng)規(guī)則。由于公共數(shù)據(jù)用于大模型訓(xùn)練的合規(guī)問題較為復(fù)雜,作者將另行撰文,本文不做進一步展開。
綜上,大模型預(yù)訓(xùn)練過程中,數(shù)據(jù)是核心要素之一。預(yù)訓(xùn)練數(shù)據(jù)的合規(guī),也是大模型開發(fā)企業(yè)合規(guī)體系建設(shè)中最為重要的一環(huán)。
注釋
[1] 《數(shù)據(jù)合規(guī)法律實務(wù)》,吳衛(wèi)明,法律出版社,2022年版。
[2] 《生成式人工智能預(yù)訓(xùn)練過程的合規(guī)》,吳衛(wèi)明,威科先行。
[3] 《算法分類分級治理若干問題》,吳衛(wèi)明,www.sdzjhg.com。
[4] 《數(shù)據(jù)化轉(zhuǎn)型的法律問題實操指引》,吳衛(wèi)明,法律出版社,2024年版。






