成全在线观看免费完整的,成全影视大全免费追剧大全,成全视频高清免费播放电视剧好剧,成全在线观看免费完整,成全在线观看高清全集,成全动漫视频在线观看完整版动画

×

打開微信,掃一掃二維碼
訂閱我們的微信公眾號

首頁 錦天城概況 黨建工作 專業領域 行業領域 專業人員 全球網絡 新聞資訊 出版刊物 加入我們 聯系我們 訂閱下載 CN EN JP
首頁 > 出版刊物 > 專業文章 > 人工智能大模型預訓練語料數據的合規

人工智能大模型預訓練語料數據的合規

作者:吳衛明 2025-01-22
[摘要]對于大模型研發企業而言,規范大模型的訓練過程,預訓練語料數據的合規無疑是最為重要的方面之一。

大語言模型(Large Language Model)通常是指具有大規模參數和運算能力的自然語言處理模型,算法、算力與數據,是支撐大模型發展的三大基石。而模型預訓練過程中的海量數據,被認為是決定模型能力的核心要素之一。


大模型訓練過程中,通過對詞語序列的概率相關性分布的建模,語料數據及參數經過模型的加工、分析和多輪推理演算,最終形成對于語料關系的判斷模型和預測模型。即以語句中詞匯的組合作為輸入條件,預測后續不同詞匯出現的概率分布。因此,語料數據對于大模型的基礎能力具有重要的影響。某種意義上講,輸出來自于訓練時的數據輸入。盡管由于不同數據、不同參數對于模型的影響機制仍難以通過量化的方式說明,產生了算法及模型的“黑箱效應”,但訓練數據對于模型的影響機制仍然是客觀存在的。


對于大模型研發企業而言,規范大模型的訓練過程,預訓練語料數據的合規無疑是最為重要的方面之一。


一、預訓練數據的來源及分類


通常而言,考慮到大模型作為一種基礎語言模型,語料數據來源應具有廣泛性。以Chat-GPT為例,其語料數據集就包括了維基百科的網頁數據、各類書籍、雜志期刊等,還包括其他專門的開源數據集,比如Common Crawl,以及GitHub等代碼數據集。豐富的數據集有助于提升模型理解、對話交流和多模態信息處理等方面的能力。由于數據在不同國家、不同法域、不同領域、不同行業有不同的規則,因此,有必要對于預訓練數據集的進行分類,從而對其合規性予以判斷。


1、依據數據來源所進行的分類


(1)開源數據集


境外的常見開源數據集包括Common Crawl等開源數據集,Common Crawl是一個大型的網站抓取數據集,包含原始網頁、元數據和文本等語料提取數據。當前境內也有不同機構推出了相應的人工智能預訓練開源數據集,隨著我國對于開源訓練語料數據平臺的鼓勵政策,此類平臺也會逐漸成熟。


(2)公開網頁爬取數據


網頁爬取數據是大模型企業重要的數據來源,通過自動化程序復制目標網頁的文章、圖片等網頁內容,是獲取網頁數據的重要方法[1]。對于公開網頁爬取方式獲取數據的做法,在實踐中存在一定的爭議。比如對于作品的合理使用、數據合理使用等問題。


(3)第三方商業數據集


第三方商業數據集一般是指以有償方式所獲取的來自于專業數據服務商的語料數據,此類數據包括通過公開途徑無法獲取的數據,或者直接通過網頁爬取方式存在一定風險的數據。以有償方式獲取,一方面可以解決數據的權屬或者知識產權問題,另一方面,也可以獲取經過加工的高質量數據。


(4)企業自采數據


對于擁有豐富業務場景的大模型開發企業而言,自采數據是其預訓練語料的重要來源之一。比如一些搜索類企業,即擁有大量的文本類數據。對于經營社交類應用或社交媒體的企業,則會擁有大量的音視頻數據或者用戶行為數據。


2、依據預訓練數據類型所進行的分類


(1)作品數據


作品數據是大模型訓練中最為常見一種數據,大模型在獲取語言知識和世界知識過程中,作品數據無疑是優質的訓練語料。書籍、學術期刊、各類文章等都屬于作品數據。作品數據一般會存在作者或者相關機構的著作權問題,如何協調模型訓練與著作權之間的關系,成為各國立法和司法機構面臨的新問題。


(2)個人信息


對于以合法方式獲取的個人信息,在符合個人信息處理目的的前提下,也可以用于大模型訓練。當然,由于個人信息的來源渠道豐富,在使用個人信息訓練大模型的過程中,可能存在相應的合規風險。


(3)公共數據


公共數據包括政務數據等,由于不同國家和地區對于公共數據用于大模型訓練有不同的開放政策,因此,在不同國家,大模型企業對于政務數據的使用或挖掘深度并不相同。但是隨著人們對于公共數據價值的日益重視,公共數據也將成為大模型訓練數據的重要來源。


(4)企業數據


企業數據通常指與企業信息公開或經營有關的數據,基于鼓勵商事信息公開的通常做法,在各類信息公開的平臺,都可以看到大量的企業注冊信息和基本登記信息、經營信息。此類信息經過公開,一般不涉及商業秘密問題,從而成為風險較低的數據類型。


(5)行業數據


對于特定行業而言,其數據在垂直類大模型訓練中擁有較高的價值。這些領域包括健康醫療領域、金融領域、交通領域等。由于不同行業領域均有其特定的法規與監管規則,因而特定行業領域的數據用于大模型訓練,除了遵循一般規則外,還應關注行業的相應規則。


二、預訓練數據合規的立法概況


1、早期立法框架構建


2017年7月8日,國務院發布《新一代人工智能發展規劃》。在保障措施提到“制定促進人工智能發展的法律法規和倫理規范”。開展與人工智能應用相關的民事與刑事責任確認、隱私和產權保護、信息安全利用等法律問題研究。加大對數據濫用、侵犯個人隱私、違背道德倫理等行為的懲戒力度。


2021年9月17日,國家互聯網信息辦公室、中央宣傳部、教育部、科學技術部、工業和信息化部、公安部、文化和旅游部、國家市場監督管理總局、國家廣播電視總局等九部委制定發布了《關于加強互聯網信息服務算法綜合治理的指導意見》。其中指出,對算法的數據使用、應用場景、影響效果等開展日常監測工作,感知算法應用帶來的網絡傳播趨勢、市場規則變化、網民行為等信息,預警算法應用可能產生的不規范、不公平、不公正等隱患,發現算法應用安全問題。


早期的立法中,已經開始關注數據安全與合規,并突出隱私保護等問題,但并未專門針對預訓練數據的合規進行規定。[2]


2、逐漸突出對于數據合規的針對性


2021年11月16日,國家互聯網信息辦公室發布《互聯網信息服務算法推薦管理規定》。算法推薦服務提供者應當落實算法安全主體責任,建立健全算法機制機理審核、科技倫理審查、用戶注冊、信息發布審核、數據安全和個人信息保護、反電信網絡詐騙、安全評估監測、安全事件應急處置等管理制度和技術措施,制定并公開算法推薦服務相關規則。并明確將《中華人民共和國網絡安全法》、《中華人民共和國數據安全法》、《中華人民共和國個人信息保護法》、《互聯網信息服務管理辦法》等法律、行政法規,作為辦法的制定依據。


此外,還規定算法推薦服務提供者應當加強用戶模型和用戶標簽管理,完善記入用戶模型的興趣點規則和用戶標簽管理規則,不得將違法和不良信息關鍵詞記入用戶興趣點或者作為用戶標簽并據以推送信息。[3]


這一階段的立法,根據數據安全法及個人信息保護法的要求,在數據安全與個人信息保護方面確立了基本的要求


3、突出訓練數據的合規


2022年11月3日,國家互聯網信息辦公室發布《互聯網信息服務深度合成管理規定》。該規定第十條專門對輸入數據進行了規范,服務提供者應當加強深度合成內容管理,采取技術或者人工方式對深度合成服務使用者的輸入數據和合成結果進行審核。


該規定還在第十四條專門規定了服務提供者和技術支持者應當加強訓練數據管理,采取必要措施保障訓練數據安全;訓練數據包含個人信息的,應當遵守個人信息保護的有關規定。


在2023年8月15日國家互聯網信息辦公室發布的《生成式人工智能服務管理暫行辦法》中,則明確了預訓練數據的合規要求。該辦法第七條規定,生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動:(一)使用具有合法來源的數據和基礎模型;(二)涉及知識產權的,不得侵害他人依法享有的知識產權;(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規規定的其他情形;(四)采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性。


除了預訓練數據外,該辦第八條還對數據標注進行了規范,在生成式人工智能技術研發過程中進行數據標注的,提供者應當制定符合本辦法要求的清晰、具體、可操作的標注規則;開展數據標注質量評估,抽樣核驗標注內容的準確性;對標注人員進行必要培訓,提升尊法守法意識,監督指導標注人員規范開展標注工作。


總體而言,這一階段的立法已經重點關注預訓練數據的合規,并將預訓練數據的合規作為生成式人工智能監管的重要內容。


三、不同預訓練數據的基本合規要求


1、個人信息數據


大模型預訓練中的個人信息數據的合規問題,仍應遵循個人信息保護法的有關規則。


(1)首先還是應遵循合法、正當、最小化原則。最小化原則而言,對應的是個人信息保護法的必要原則,只應收集必要的數據,即與模型訓練和功能實現密切相關的數據,避免無關數據的收集;即便是為了提高模型的表現,也不能在沒有明確理由的情況下收集額外的個人信息。


(2)知情同意原則也需要予以重視。雖然大模型訓練可能并不關注數據的個體顆粒度和識別度,但是特定領域數據個體顆粒度的保留依然是需要的。因此,涉及能夠識別到個人信息信息,或者保持一定個體顆粒度的信息,仍然需要適用個人信息保護的知情同意原則。對于無需保留個體顆粒度的數據,則應通過匿名化的方式來降低個人信息合規風險。


(3)公開收集數據集,則需要關注個人信息的合理利用問題。一般而言,由于模型訓練本身并不涉及個人信息的對外利用和轉讓,因而此類使用具有一定合理性。


(4)對于開源數據集或者來自于第三方的商業數據,則需要關注其中所包含個人信息的來源及合規性。如果這些數據本身是公開數據,則需要關注合理使用問題。如果其中的個人信息不能說明來源,則需要重點關注其合規性,以及是否符合知情同意原則。


(5)生命周期安全與刪除,也是個人信息數據用于大模型預訓練需要考慮的問題。研發企業應采取技術與管理措施,保證個人信息數據全生命周期的安全。設定數據的保留期限,超出這一期限就應啟動刪除流程。


2、用戶反饋數據合規


用戶反饋數據雖然并不屬于大模型預訓練階段的數據,但是屬于模型訓練的反饋過程,對于優化模型具有重要的作用。對于用戶反饋數據優化模型,也同樣需要符合知情同意原則,數據具有用戶的授權記錄,將收集用戶輸入內容的情況以及數據使用和拒絕的方式以顯著的方式告知。


對于以toB方式部署的大模型應用,收集來自于B端用戶的數據,如果數據權益歸屬于用戶,則同樣應遵循用戶知情同意的原則。對于B端用戶的最終個人用戶,也需要明確告知數據收集主體,并取得最終個人用戶同意。


3、公開爬取數據的合規


如前所述,通過自動化程序爬取公開網頁數據,是大模型預訓練數據的重要來源之一。針對此類數據獲取行為,也引發了不少爭議。部分平臺的運營者認為,網頁數據包含其版權或者競爭性財產權益,而模型訓練本身是商業行為,從而使用公開網頁數據可能會構成侵犯著作權或者不正當競爭。


此外,由于部分網絡通過Robots協議或者反爬蟲技術措施限制數據的爬取,并且也已經發生過因為爬取數據而產生的刑事案件。數據爬取,可能會涉及刑法285條第二款的適用,即該種行為可能會被認定構成“非法獲取計算機信息系統數據罪”。[4]


筆者認為,從當前的實踐來看,爬取的公開網頁數據是大模型預訓練重要數據來源,而數據爬取作為一種技術措施,本身并不構成違法。而是需要根據不同情形具體判斷,并采取必要的合規措施。這些措施主要包括:


(1)從民事風險的角度看,對于爬取的公開數據應遵循合理使用原則,且其使用不應具有非法目的。此外,爬取數據的使用方式,不對源網站/系統產生實質性替代,或者具有替代性效果。此外,還應關注網站法律聲明內容及Robots協議的限制。


(2)從行政或刑事法律風險角度看,爬取數據的過程應關注爬取的流量和頻率,爬取過程不能影響網絡產品或者服務的正常運行和系統的正常功能。并且,原則上不應采取技術措施繞過反爬蟲措施。此外,不應通過破解網站、系統所采取的安全保護措施獲取后臺非公開數據。


4、作品數據使用的合規


在大模型預訓練過程中,書籍、圖片、各類文章等作品數據是重要的數據類型。但是作品數據的利用,將會面臨是否屬于著作權合理使用的問題。我國《著作權法》采取的是“許可使用”的基本模式。如《著作權法》第二十四條列舉了可以不經著作權人許可的幾種“合理使用”的具體情形。如“個人使用”、“適當引用”和“學習研究使用”等,但這些規定難以直接覆蓋大模型訓練中大規模復制和利用作品的商業化需求。因此,需要通過立法或者司法案例對于模型訓練使用作品的情形進行界定,以便平衡著作權與人工智能發展的關系。由于這一問題較為復雜,作者將另行撰文,本處不做進一步展開。


5、公共數據合規


公共數據由于其數據類型豐富,且數據體量巨大,因而也成為大模型訓練的潛在數據來源。隨著我國公共數據開放和授權運營體系的日益推進,公共數據用于大模型預訓練的合規問題也日益凸顯。公共數據中包含企業數據、個人信息和其他數據,也包含重要數據和國家秘密數據等。因此,公共數據用于大模型訓練的合規性判斷較為復雜。應遵循公開透明、規范管理、權責明確、風險可控等基本原則。在合規措施方面,還應遵循“原始數據不出域、數據可用不可見”的原則。此外,如果公共數據中涉及國家秘密的情況,相應的數據集還應遵循國家秘密保護有關法律法規。


對于公共數據中的個人信息、企業數據、其他類型的數據,還應遵循相應領域數據合規的相應規則。由于公共數據用于大模型訓練的合規問題較為復雜,作者將另行撰文,本文不做進一步展開。

綜上,大模型預訓練過程中,數據是核心要素之一。預訓練數據的合規,也是大模型開發企業合規體系建設中最為重要的一環。


注釋

[1] 《數據合規法律實務》,吳衛明,法律出版社,2022年版。

[2] 《生成式人工智能預訓練過程的合規》,吳衛明,威科先行。

[3] 《算法分類分級治理若干問題》,吳衛明,www.sdzjhg.com。

[4] 《數據化轉型的法律問題實操指引》,吳衛明,法律出版社,2024年版。


欢迎光临: 北流市| 金平| 布尔津县| 兰坪| 安龙县| 驻马店市| 准格尔旗| 南澳县| 肃宁县| 洪湖市| 长治市| 治县。| 静宁县| 巢湖市| 韶山市| 新宁县| 丘北县| 西畴县| 那曲县| 阿坝| 宁国市| 忻城县| 长寿区| 汉阴县| 太保市| 田林县| 淅川县| 遂平县| 祁门县| 封开县| 井研县| 扎囊县| 萨迦县| 桑植县| 肃北| 澄江县| 保山市| 五华县| 光泽县| 平和县| 卓尼县|