成全在线观看免费完整的,成全影视大全免费追剧大全,成全视频高清免费播放电视剧好剧,成全在线观看免费完整,成全在线观看高清全集,成全动漫视频在线观看完整版动画

×

打開微信,掃一掃二維碼
訂閱我們的微信公眾號

首頁 錦天城概況 黨建工作 專業(yè)領域 行業(yè)領域 專業(yè)人員 全球網絡 新聞資訊 出版刊物 加入我們 聯(lián)系我們 訂閱下載 CN EN JP
首頁 > 出版刊物 > 專業(yè)文章 > 生成式人工智能訓練過程的合規(guī)與治理

生成式人工智能訓練過程的合規(guī)與治理

作者:吳衛(wèi)明 2024-12-31
[摘要]隨著以chatGPT為代表的大模型日趨成熟,生成式人工智能(生成式AI)的應用也日益廣泛。大模型對于自然語言的理解,使得生成式AI具備理解人類指令并輸出相應生成合成物的能力,這種能力可以在很多領域輔助人類的工作。

隨著以chatGPT為代表的大模型日趨成熟,生成式人工智能(生成式AI)的應用也日益廣泛。大模型對于自然語言的理解,使得生成式AI具備理解人類指令并輸出相應生成合成物的能力,這種能力可以在很多領域輔助人類的工作。


當然,生成式AI在給人們帶來便利和推進新經濟模式發(fā)展的同時,也帶來了倫理和社會公共利益問題。生成式AI可以被用于積極和正向的領域,但如果缺乏法律治理,生成式AI的應用也可能產生違法或其他損害社會公序良俗的不利后果。2024年,公安部發(fā)布了2023年深入推進“掃黃打非”工作的有關成果,其中就包括利用人工智能AI技術制作淫穢物品的新型犯罪。在部分網絡詐騙犯罪案件中,犯罪分子利用深度偽造技術(deepfakes)生成人臉圖像、視頻、聲紋等做法,也為詐騙活動提供了便利。此外,對于生成式AI應用可能產生的人群歧視、偏見等問題,以及虛假信息傳播,也已經成為需要關注和治理的問題。


針對生成式AI可能帶來的問題,各國也在積極進行立法規(guī)制。比如,2024年3月13日,歐洲議會通過了全球首部關于人工智能治理的綜合性法規(guī)《人工智能法案》(Artificial Intelligence Act)。我國作為數字化與人工智能發(fā)展較為領先的國家,對算法服務及生成式AI的治理一直非常重視,也頒布了相應的監(jiān)管規(guī)則。


一、我國對于生成式人工智能的立法概況


我國當前并未在全國人大層面出臺專門的人工智能立法,但出于我國立法機關對于新技術、新應用立法的通常做法,在新技術、新應用的社會影響被完整評估前,一般會通過國務院條例或者主管部門的監(jiān)管規(guī)則(行政規(guī)章)結合相關國家標準的方式進行規(guī)制。從而可以在保護創(chuàng)新的同時,實施積極的規(guī)制,并避免因為倉促立法而影響法律的穩(wěn)定性。


針對人工智能的應用,2021年9月,國家互聯(lián)網信息辦公室、中共中央宣傳部、教育部、科學技術部、工業(yè)和信息化部、公安部、文化和旅游部、國家市場監(jiān)督管理總局、國家廣播電視總局共同發(fā)布了《關于加強互聯(lián)網信息服務算法綜合治理的指導意見》(簡稱《指導意見》)。《指導意見》提出了逐步建立治理機制健全、監(jiān)管體系完善、算法生態(tài)規(guī)范的算法安全綜合治理格局的目標。并提出了構建算法導向正確、正能量充沛,算法應用公平公正、公開透明,算法發(fā)展安全可控、自主創(chuàng)新,有效防范算法濫用帶來的風險隱患的算法生態(tài)。

2021年,國家互聯(lián)網信息辦公室發(fā)布的《互聯(lián)網信息服務算法推薦管理規(guī)定》(簡稱《算法規(guī)定》)規(guī)定,“提供算法推薦服務,應當遵守法律法規(guī),尊重社會公德和倫理,遵守商業(yè)道德和職業(yè)道德,遵循公正公平、公開透明、科學合理和誠實信用的原則?!?/p>


2022年11月25日,國家互聯(lián)網信息辦公室發(fā)布了《互聯(lián)網信息服務深度合成管理規(guī)定》(簡稱《深度合成規(guī)定》),《深度合成規(guī)定》,則對應用深度合成技術的若干重要問題進行了規(guī)定。也規(guī)定了“尊重社會公德和倫理道德”以及“服務向上向善”的內容。


2023年7月10日,國家互聯(lián)網信息辦公室發(fā)布了《生成式人工智能服務管理辦法》,(簡稱《生成式AI規(guī)定》)?!渡墒紸I規(guī)定》對生成式人工智能進行了界定,即生成式人工智能,是指基于算法、模型、規(guī)則生成文本、圖片、聲音、視頻、代碼等內容的技術。隨著以美國Open-AI公司ChatGPT為代表的生成式人工智能產品的發(fā)展與推廣,如何應對該種人工智能服務所帶來的社會風險,成為監(jiān)管關注的新問題。


2024年9月24日,國家互聯(lián)網信息辦公室發(fā)布《網絡數據安全管理條例》,則將生成式AI的訓練數據問題作為重點關注對象,該條例第十九條規(guī)定,提供生成式人工智能服務的網絡數據處理者應當加強對訓練數據和訓練數據處理活動的安全管理,采取有效措施防范和處置網絡數據安全風險。


2023年9月7日,科技部等部門發(fā)布的《科技倫理審查辦法(試行)》,將人工智能算法、模型的開發(fā)列入了科技倫理審查的范疇。第十五條規(guī)定的倫理審查重點內容即包括“算法、模型和系統(tǒng)的設計、實現(xiàn)、應用等遵守公平、公正、透明、可靠、可控等原則,符合國家有關要求,倫理風險評估審核和應急處置方案合理,用戶權益保護措施全面得當”。


總體而言,我國通過行政法規(guī)、規(guī)章等,已經對人工智能進行了較為系統(tǒng)的規(guī)制。從上述立法的演進來看,對于人工智能的法律治理重點也在不斷優(yōu)化。最早期的立法強調的是對人工智能算法進行綜合治理,即從開發(fā)、應用、數據、社會危害的防范、倫理等角度進行綜合治理。到了《互聯(lián)網信息服務算法推薦管理規(guī)定》,則對于將算法應用于互聯(lián)網信息服務的過程更為關注,在對算法進行分類分級的基礎上,從數據安全、內容管理等方面進行了規(guī)制。而到了《生成式人工智能服務管理暫行辦法》,除了前述規(guī)則的內容,還更為強調對于生成式AI模型訓練的規(guī)制。


二、對生成式AI訓練過程進行干預是實現(xiàn)法律治理目標的基礎


生成式AI的預訓練、優(yōu)化訓練及數據標注,以及使用過程中根據測試環(huán)節(jié)或者人類反饋強化學習或者與人類認知對齊的過程,都可以被視為是廣義的訓練過程。這一過程中,從訓練語料的獲取到訓練語料清洗與標注,再到訓練語料的輸入,以及有監(jiān)督學習和調優(yōu),都與生成式AI的算法能力、算法合規(guī)管理以及算法輸出內容的合規(guī)有關。某種意義上將,人工智能的訓練過程,是人工智能實現(xiàn)合規(guī)的重要基礎。因此,對生成式AI訓練過程進行法律治理,是生成式AI合規(guī)的保障。


從生成式AI的治理目標來看,其目的在于”促進生成式人工智能健康發(fā)展和規(guī)范應用,維護國家安全和社會公共利益,保護公民、法人和其他組織的合法權益”。但是,上述目標實現(xiàn)的具體內容,在《生成式人工智能服務管理暫行辦法》中,則通過第四條的規(guī)定進行了細化和展開。具體包括:


其一、內容合法。即不得生成煽動顛覆國家政權、推翻社會主義制度,危害國家安全和利益、損害國家形象,煽動分裂國家、破壞國家統(tǒng)一和社會穩(wěn)定,宣揚恐怖主義、極端主義,宣揚民族仇恨、民族歧視,暴力、淫穢色情,以及虛假有害信息等法律、行政法規(guī)禁止的內容;


其二、反對歧視。在算法設計、訓練數據選擇、模型生成和優(yōu)化、提供服務等過程中,采取有效措施防止產生民族、信仰、國別、地域、性別、年齡、職業(yè)、健康等歧視;


其三、尊重知識產權。尊重知識產權、商業(yè)道德,保守商業(yè)秘密,不得利用算法、數據、平臺等優(yōu)勢,實施壟斷和不正當競爭行為;


其四、保護個人權益。尊重他人合法權益,不得危害他人身心健康,不得侵害他人肖像權、名譽權、榮譽權、隱私權和個人信息權益;


其五、內容準確可靠。采取有效措施,提升生成式人工智能服務的透明度,提高生成內容的準確性和可靠性。


上述治理目標的實現(xiàn),既包括通過對輸入內容及生成物進行過濾、干預等使用過程中的安全措施,也包括在算法訓練過程中的干預。由于訓練過程決定了大模型或者生成式AI的基礎能力,因而,訓練過程的干預在算法合規(guī)治理中更為基礎。


1、訓練過程的數據輸入是模型與算法安全性的基礎


算法預訓練數據的輸入,一定程度上影響了生成內容。以chatGPT為例,GPT系列的模型都經過了無監(jiān)督預訓練階段。這一階段,通過對訓練語料數據的學習,模型具備對于自然語言進行分析和預測,以及根據人類輸入的提示詞輸出相應生成內容的能力。訓練階段的數據輸入內容,將會影響生成內容。雖然對于這種影響的準確機制,尚無法進行說明和預測,也即所謂的“算法黑箱”機制,但是不同參數的共同作用,將會對模型以及模型生成物產生潛在的影響。


正是基于預訓練數據可能對算法及生成物產生影響,對于預訓練數據的管理,成為生成式AI算法訓練監(jiān)管的重點內容。


如《生成式人工智能服務管理暫行辦法》第七條規(guī)定,生成式人工智能服務提供者應當依法開展預訓練、優(yōu)化訓練等訓練數據處理活動,遵守以下規(guī)定:(一)使用具有合法來源的數據和基礎模型;(二)涉及知識產權的,不得侵害他人依法享有的知識產權;(三)涉及個人信息的,應當取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形;(四)采取有效措施提高訓練數據質量,增強訓練數據的真實性、準確性、客觀性、多樣性;(五)《中華人民共和國網絡安全法》、《中華人民共和國數據安全法》、《中華人民共和國個人信息保護法》等法律、行政法規(guī)的其他有關規(guī)定和有關主管部門的相關監(jiān)管要求。


實際上,本條的(一)(二)(三)都是在訓練數據收集環(huán)節(jié)對于第三方權利的保護條款。并不直接與輸出物有關,但(四)條款關于訓練數據的真實性、準確性、客觀性、多樣性的規(guī)定,則是屬于通過干預數據影響算法及生成物的規(guī)定,數據中如果混雜進了虛假數據,或者數據不準確,缺乏客觀性和多樣性,將可能產生歧視性的算法或輸出成果,或者產生對于社會的不良引導。

此外,(五)條款關于遵守《中華人民共和國網絡安全法》、《中華人民共和國數據安全法》、《中華人民共和國個人信息保護法》的要求,實際上對于訓練數據內容的合法性,也提出了要求。


2、訓練過程的干預是實現(xiàn)模型與算法安全性的保障


雖然大模型在預訓練階段通過對大量預訓練數據的學習,掌握了大量的語言學知識和世界知識,但仍需要進行有監(jiān)督的微調,從而更好滿足任務需求。一般而言,需要利用數據標注,實現(xiàn)監(jiān)督學習,并通過調整參數,達到更好的訓練效果。數據標注是有監(jiān)督學習的重要方式,也是生成式AI模型訓練的重要環(huán)節(jié)。比如,《生成式人工智能服務管理暫行辦法》第八條即規(guī)定,在生成式人工智能技術研發(fā)過程中進行數據標注的,提供者應當制定符合本辦法要求的清晰、具體、可操作的標注規(guī)則;開展數據標注質量評估,抽樣核驗標注內容的準確性;對標注人員進行必要培訓,提升尊法守法意識,監(jiān)督指導標注人員規(guī)范開展標注工作。


而在國家主管部門的大模型備案系統(tǒng)中,開發(fā)單位備案應提供的必備文件即包括語料標注規(guī)則。此外,《信息安全技術 生成式人工智能數據標注安全規(guī)范》也處于征求意見階段。由此可見,國家有關立法與技術標準對于訓練過程均予以了關注并進行了規(guī)制。


三、生成式AI訓練過程的合規(guī)要點


1、訓練合規(guī)制度體系的建立


生成式AI的研發(fā)企業(yè)應建立與模型或算法訓練有關的合規(guī)制度體系,主要包括:


(1)與訓練數據獲取有關的管控制度


通過相應的制度,對于訓練語料數據的來源及其合法性進行充分的管控。訓練語料數據的來源可能包括開源數據集、向第三方獲取的商業(yè)數據集、公共數據、個人信息以及企業(yè)自行采集或生產的數據,這些數據集可能包含不同的行業(yè)領域。


由于《生成式人工智能服務管理暫行辦法》對于訓練數據有明確的禁止性規(guī)定,并且兜底規(guī)定了訓練數據應符合《中華人民共和國網絡安全法》、《中華人民共和國數據安全法》、《中華人民共和國個人信息保護法》等法律、行政法規(guī)的其他有關規(guī)定和有關主管部門的相關監(jiān)管要求。這就對訓練數據的來源合規(guī)及內容合規(guī)提出了很高的管控要求。因此,制定與訓練數據獲取有關的合規(guī)制度,是生成式AI訓練合規(guī)體系的重要內容。


(2)與數據標注有關的規(guī)則


數據標注是生成式AI訓練的重要環(huán)節(jié),研發(fā)企業(yè)通過人工或者自動化程序,基于對提示信息的響應信息內容,將特定信息如標簽、類別或屬性添加到文本、圖片、音頻、視頻或者其他數據樣本的過程。標注后的數據通常用于訓練和驗證機器學習模型,幫助模型學習如何從原始數據中提取有意義的模式和信息。數據標注是監(jiān)督學習的重要內容,數據標準質量影響AI模型的質量,同時也對AI生成內容的合規(guī)性產生影響。


因此,數據標注規(guī)則,以及圍繞數據標注規(guī)則建立的數據標注合規(guī)體系,如數據標注的安全要求、數據標注人員的安全要求、數據標準的核驗要求等,都需要在標注規(guī)則中予以體現(xiàn)。


2、預訓練數據的安全合規(guī)


預訓練是生成式AI模型訓練的基礎,這一過程中,需要面對數據合規(guī)與數據安全問題。主要的問題包括以下方面:(1)使用他人作品用戶模型訓練的的著作權保護問題。(2)以自動化程序(網絡爬蟲)獲取數據用于訓練的合規(guī)性。(3)第三方商業(yè)數據用于模型訓練的合規(guī)問題。(4)個人信息用于模型訓練的合規(guī)問題。(5)公共數據訓練模型的合規(guī)問題。以及其他相關專業(yè)領域數據用于模型訓練的合規(guī)問題。生成式AI的研發(fā)企業(yè),應嚴格遵循數據合規(guī)領域專門的法律、法規(guī)、規(guī)章以及行業(yè)性法律、法規(guī)、規(guī)章的要求,嚴格把關,防范訓練過程中產生數據合規(guī)風險。此外,還應采取嚴格的數據安全措施,防范數據泄露等安全風險。由于預訓練的數據合規(guī)涉及內容較多,本文不做展開,后續(xù)將以專門的文章論述。


3、數據標注的安全與合規(guī)


數據標注過程中,可能涉及到本公司人員或第三方外包機構人員對于數據的接觸,因而合規(guī)方面需要特別關注如下內容:其一、如果標注數據包含敏感個人信息,應采取必要措施對敏感個人信息進行匿名化處理,防止個人信息泄露或不當利用風險;其二、采取數據訪問控制策略,只允許經過授權的標注人員訪問;其三、標注數據的備份,以防止數據丟失或損壞;其四、監(jiān)控和記錄準備標注的數據的訪問和修改記錄,以進行數據安全審計;其五、如涉及第三方外包,需要對標注任務的數據安全、數據刪除等進行明確約定。此外,需要對標注人員進行過培訓,以確保其具備數據標注的基本能力。在數據標注后,還需要對標注內容進行核驗,以核驗是否達到標注質量及標注的安全要求。由于數據標注合規(guī)涉及內容較多,本文不做展開,后續(xù)將以專門的文章論述。


綜上,生成式AI模型訓練是一個動態(tài)過程,對于研發(fā)企業(yè)而言,如何對訓練過程進行管控,既是模型質量的基礎,也是模型合規(guī)的保障。


欢迎光临: 搜索| 新昌县| 汕尾市| 宣汉县| 沈丘县| 宜兴市| 林西县| 兴安盟| 汉川市| 漳浦县| 陇西县| 兴国县| 阿拉尔市| 南溪县| 金山区| 辰溪县| 泰兴市| 张掖市| 沈丘县| 建水县| 滨海县| 南宁市| 鄯善县| 泾源县| 正阳县| 筠连县| 阿图什市| 昆山市| 郧西县| 安龙县| 武川县| 尚志市| 峨眉山市| 张家港市| 咸丰县| 长子县| 红安县| 新丰县| 监利县| 柳江县| 六盘水市|