成全在线观看免费完整的,成全影视大全免费追剧大全,成全视频高清免费播放电视剧好剧,成全在线观看免费完整,成全在线观看高清全集,成全动漫视频在线观看完整版动画

×

打開微信,掃一掃二維碼
訂閱我們的微信公眾號

首頁 錦天城概況 黨建工作 專業(yè)領(lǐng)域 行業(yè)領(lǐng)域 專業(yè)人員 全球網(wǎng)絡(luò) 新聞資訊 出版刊物 加入我們 聯(lián)系我們 訂閱下載 CN EN JP
首頁 > 全球網(wǎng)絡(luò) > 上海 > 出版刊物 > 專業(yè)文章 > 生成式人工智能訓(xùn)練過程的合規(guī)與治理

生成式人工智能訓(xùn)練過程的合規(guī)與治理

作者:吳衛(wèi)明 2024-12-31
[摘要]隨著以chatGPT為代表的大模型日趨成熟,生成式人工智能(生成式AI)的應(yīng)用也日益廣泛。大模型對于自然語言的理解,使得生成式AI具備理解人類指令并輸出相應(yīng)生成合成物的能力,這種能力可以在很多領(lǐng)域輔助人類的工作。

隨著以chatGPT為代表的大模型日趨成熟,生成式人工智能(生成式AI)的應(yīng)用也日益廣泛。大模型對于自然語言的理解,使得生成式AI具備理解人類指令并輸出相應(yīng)生成合成物的能力,這種能力可以在很多領(lǐng)域輔助人類的工作。


當(dāng)然,生成式AI在給人們帶來便利和推進(jìn)新經(jīng)濟模式發(fā)展的同時,也帶來了倫理和社會公共利益問題。生成式AI可以被用于積極和正向的領(lǐng)域,但如果缺乏法律治理,生成式AI的應(yīng)用也可能產(chǎn)生違法或其他損害社會公序良俗的不利后果。2024年,公安部發(fā)布了2023年深入推進(jìn)“掃黃打非”工作的有關(guān)成果,其中就包括利用人工智能AI技術(shù)制作淫穢物品的新型犯罪。在部分網(wǎng)絡(luò)詐騙犯罪案件中,犯罪分子利用深度偽造技術(shù)(deepfakes)生成人臉圖像、視頻、聲紋等做法,也為詐騙活動提供了便利。此外,對于生成式AI應(yīng)用可能產(chǎn)生的人群歧視、偏見等問題,以及虛假信息傳播,也已經(jīng)成為需要關(guān)注和治理的問題。


針對生成式AI可能帶來的問題,各國也在積極進(jìn)行立法規(guī)制。比如,2024年3月13日,歐洲議會通過了全球首部關(guān)于人工智能治理的綜合性法規(guī)《人工智能法案》(Artificial Intelligence Act)。我國作為數(shù)字化與人工智能發(fā)展較為領(lǐng)先的國家,對算法服務(wù)及生成式AI的治理一直非常重視,也頒布了相應(yīng)的監(jiān)管規(guī)則。


一、我國對于生成式人工智能的立法概況


我國當(dāng)前并未在全國人大層面出臺專門的人工智能立法,但出于我國立法機關(guān)對于新技術(shù)、新應(yīng)用立法的通常做法,在新技術(shù)、新應(yīng)用的社會影響被完整評估前,一般會通過國務(wù)院條例或者主管部門的監(jiān)管規(guī)則(行政規(guī)章)結(jié)合相關(guān)國家標(biāo)準(zhǔn)的方式進(jìn)行規(guī)制。從而可以在保護(hù)創(chuàng)新的同時,實施積極的規(guī)制,并避免因為倉促立法而影響法律的穩(wěn)定性。


針對人工智能的應(yīng)用,2021年9月,國家互聯(lián)網(wǎng)信息辦公室、中共中央宣傳部、教育部、科學(xué)技術(shù)部、工業(yè)和信息化部、公安部、文化和旅游部、國家市場監(jiān)督管理總局、國家廣播電視總局共同發(fā)布了《關(guān)于加強互聯(lián)網(wǎng)信息服務(wù)算法綜合治理的指導(dǎo)意見》(簡稱《指導(dǎo)意見》)。《指導(dǎo)意見》提出了逐步建立治理機制健全、監(jiān)管體系完善、算法生態(tài)規(guī)范的算法安全綜合治理格局的目標(biāo)。并提出了構(gòu)建算法導(dǎo)向正確、正能量充沛,算法應(yīng)用公平公正、公開透明,算法發(fā)展安全可控、自主創(chuàng)新,有效防范算法濫用帶來的風(fēng)險隱患的算法生態(tài)。

2021年,國家互聯(lián)網(wǎng)信息辦公室發(fā)布的《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》(簡稱《算法規(guī)定》)規(guī)定,“提供算法推薦服務(wù),應(yīng)當(dāng)遵守法律法規(guī),尊重社會公德和倫理,遵守商業(yè)道德和職業(yè)道德,遵循公正公平、公開透明、科學(xué)合理和誠實信用的原則。”


2022年11月25日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布了《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》(簡稱《深度合成規(guī)定》),《深度合成規(guī)定》,則對應(yīng)用深度合成技術(shù)的若干重要問題進(jìn)行了規(guī)定。也規(guī)定了“尊重社會公德和倫理道德”以及“服務(wù)向上向善”的內(nèi)容。


2023年7月10日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布了《生成式人工智能服務(wù)管理辦法》,(簡稱《生成式AI規(guī)定》)。《生成式AI規(guī)定》對生成式人工智能進(jìn)行了界定,即生成式人工智能,是指基于算法、模型、規(guī)則生成文本、圖片、聲音、視頻、代碼等內(nèi)容的技術(shù)。隨著以美國Open-AI公司ChatGPT為代表的生成式人工智能產(chǎn)品的發(fā)展與推廣,如何應(yīng)對該種人工智能服務(wù)所帶來的社會風(fēng)險,成為監(jiān)管關(guān)注的新問題。


2024年9月24日,國家互聯(lián)網(wǎng)信息辦公室發(fā)布《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例》,則將生成式AI的訓(xùn)練數(shù)據(jù)問題作為重點關(guān)注對象,該條例第十九條規(guī)定,提供生成式人工智能服務(wù)的網(wǎng)絡(luò)數(shù)據(jù)處理者應(yīng)當(dāng)加強對訓(xùn)練數(shù)據(jù)和訓(xùn)練數(shù)據(jù)處理活動的安全管理,采取有效措施防范和處置網(wǎng)絡(luò)數(shù)據(jù)安全風(fēng)險。


2023年9月7日,科技部等部門發(fā)布的《科技倫理審查辦法(試行)》,將人工智能算法、模型的開發(fā)列入了科技倫理審查的范疇。第十五條規(guī)定的倫理審查重點內(nèi)容即包括“算法、模型和系統(tǒng)的設(shè)計、實現(xiàn)、應(yīng)用等遵守公平、公正、透明、可靠、可控等原則,符合國家有關(guān)要求,倫理風(fēng)險評估審核和應(yīng)急處置方案合理,用戶權(quán)益保護(hù)措施全面得當(dāng)”。


總體而言,我國通過行政法規(guī)、規(guī)章等,已經(jīng)對人工智能進(jìn)行了較為系統(tǒng)的規(guī)制。從上述立法的演進(jìn)來看,對于人工智能的法律治理重點也在不斷優(yōu)化。最早期的立法強調(diào)的是對人工智能算法進(jìn)行綜合治理,即從開發(fā)、應(yīng)用、數(shù)據(jù)、社會危害的防范、倫理等角度進(jìn)行綜合治理。到了《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》,則對于將算法應(yīng)用于互聯(lián)網(wǎng)信息服務(wù)的過程更為關(guān)注,在對算法進(jìn)行分類分級的基礎(chǔ)上,從數(shù)據(jù)安全、內(nèi)容管理等方面進(jìn)行了規(guī)制。而到了《生成式人工智能服務(wù)管理暫行辦法》,除了前述規(guī)則的內(nèi)容,還更為強調(diào)對于生成式AI模型訓(xùn)練的規(guī)制。


二、對生成式AI訓(xùn)練過程進(jìn)行干預(yù)是實現(xiàn)法律治理目標(biāo)的基礎(chǔ)


生成式AI的預(yù)訓(xùn)練、優(yōu)化訓(xùn)練及數(shù)據(jù)標(biāo)注,以及使用過程中根據(jù)測試環(huán)節(jié)或者人類反饋強化學(xué)習(xí)或者與人類認(rèn)知對齊的過程,都可以被視為是廣義的訓(xùn)練過程。這一過程中,從訓(xùn)練語料的獲取到訓(xùn)練語料清洗與標(biāo)注,再到訓(xùn)練語料的輸入,以及有監(jiān)督學(xué)習(xí)和調(diào)優(yōu),都與生成式AI的算法能力、算法合規(guī)管理以及算法輸出內(nèi)容的合規(guī)有關(guān)。某種意義上將,人工智能的訓(xùn)練過程,是人工智能實現(xiàn)合規(guī)的重要基礎(chǔ)。因此,對生成式AI訓(xùn)練過程進(jìn)行法律治理,是生成式AI合規(guī)的保障。


從生成式AI的治理目標(biāo)來看,其目的在于”促進(jìn)生成式人工智能健康發(fā)展和規(guī)范應(yīng)用,維護(hù)國家安全和社會公共利益,保護(hù)公民、法人和其他組織的合法權(quán)益”。但是,上述目標(biāo)實現(xiàn)的具體內(nèi)容,在《生成式人工智能服務(wù)管理暫行辦法》中,則通過第四條的規(guī)定進(jìn)行了細(xì)化和展開。具體包括:


其一、內(nèi)容合法。即不得生成煽動顛覆國家政權(quán)、推翻社會主義制度,危害國家安全和利益、損害國家形象,煽動分裂國家、破壞國家統(tǒng)一和社會穩(wěn)定,宣揚恐怖主義、極端主義,宣揚民族仇恨、民族歧視,暴力、淫穢色情,以及虛假有害信息等法律、行政法規(guī)禁止的內(nèi)容;


其二、反對歧視。在算法設(shè)計、訓(xùn)練數(shù)據(jù)選擇、模型生成和優(yōu)化、提供服務(wù)等過程中,采取有效措施防止產(chǎn)生民族、信仰、國別、地域、性別、年齡、職業(yè)、健康等歧視;


其三、尊重知識產(chǎn)權(quán)。尊重知識產(chǎn)權(quán)、商業(yè)道德,保守商業(yè)秘密,不得利用算法、數(shù)據(jù)、平臺等優(yōu)勢,實施壟斷和不正當(dāng)競爭行為;


其四、保護(hù)個人權(quán)益。尊重他人合法權(quán)益,不得危害他人身心健康,不得侵害他人肖像權(quán)、名譽權(quán)、榮譽權(quán)、隱私權(quán)和個人信息權(quán)益;


其五、內(nèi)容準(zhǔn)確可靠。采取有效措施,提升生成式人工智能服務(wù)的透明度,提高生成內(nèi)容的準(zhǔn)確性和可靠性。


上述治理目標(biāo)的實現(xiàn),既包括通過對輸入內(nèi)容及生成物進(jìn)行過濾、干預(yù)等使用過程中的安全措施,也包括在算法訓(xùn)練過程中的干預(yù)。由于訓(xùn)練過程決定了大模型或者生成式AI的基礎(chǔ)能力,因而,訓(xùn)練過程的干預(yù)在算法合規(guī)治理中更為基礎(chǔ)。


1、訓(xùn)練過程的數(shù)據(jù)輸入是模型與算法安全性的基礎(chǔ)


算法預(yù)訓(xùn)練數(shù)據(jù)的輸入,一定程度上影響了生成內(nèi)容。以chatGPT為例,GPT系列的模型都經(jīng)過了無監(jiān)督預(yù)訓(xùn)練階段。這一階段,通過對訓(xùn)練語料數(shù)據(jù)的學(xué)習(xí),模型具備對于自然語言進(jìn)行分析和預(yù)測,以及根據(jù)人類輸入的提示詞輸出相應(yīng)生成內(nèi)容的能力。訓(xùn)練階段的數(shù)據(jù)輸入內(nèi)容,將會影響生成內(nèi)容。雖然對于這種影響的準(zhǔn)確機制,尚無法進(jìn)行說明和預(yù)測,也即所謂的“算法黑箱”機制,但是不同參數(shù)的共同作用,將會對模型以及模型生成物產(chǎn)生潛在的影響。


正是基于預(yù)訓(xùn)練數(shù)據(jù)可能對算法及生成物產(chǎn)生影響,對于預(yù)訓(xùn)練數(shù)據(jù)的管理,成為生成式AI算法訓(xùn)練監(jiān)管的重點內(nèi)容。


如《生成式人工智能服務(wù)管理暫行辦法》第七條規(guī)定,生成式人工智能服務(wù)提供者應(yīng)當(dāng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動,遵守以下規(guī)定:(一)使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型;(二)涉及知識產(chǎn)權(quán)的,不得侵害他人依法享有的知識產(chǎn)權(quán);(三)涉及個人信息的,應(yīng)當(dāng)取得個人同意或者符合法律、行政法規(guī)規(guī)定的其他情形;(四)采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,增強訓(xùn)練數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性、多樣性;(五)《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個人信息保護(hù)法》等法律、行政法規(guī)的其他有關(guān)規(guī)定和有關(guān)主管部門的相關(guān)監(jiān)管要求。


實際上,本條的(一)(二)(三)都是在訓(xùn)練數(shù)據(jù)收集環(huán)節(jié)對于第三方權(quán)利的保護(hù)條款。并不直接與輸出物有關(guān),但(四)條款關(guān)于訓(xùn)練數(shù)據(jù)的真實性、準(zhǔn)確性、客觀性、多樣性的規(guī)定,則是屬于通過干預(yù)數(shù)據(jù)影響算法及生成物的規(guī)定,數(shù)據(jù)中如果混雜進(jìn)了虛假數(shù)據(jù),或者數(shù)據(jù)不準(zhǔn)確,缺乏客觀性和多樣性,將可能產(chǎn)生歧視性的算法或輸出成果,或者產(chǎn)生對于社會的不良引導(dǎo)。

此外,(五)條款關(guān)于遵守《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個人信息保護(hù)法》的要求,實際上對于訓(xùn)練數(shù)據(jù)內(nèi)容的合法性,也提出了要求。


2、訓(xùn)練過程的干預(yù)是實現(xiàn)模型與算法安全性的保障


雖然大模型在預(yù)訓(xùn)練階段通過對大量預(yù)訓(xùn)練數(shù)據(jù)的學(xué)習(xí),掌握了大量的語言學(xué)知識和世界知識,但仍需要進(jìn)行有監(jiān)督的微調(diào),從而更好滿足任務(wù)需求。一般而言,需要利用數(shù)據(jù)標(biāo)注,實現(xiàn)監(jiān)督學(xué)習(xí),并通過調(diào)整參數(shù),達(dá)到更好的訓(xùn)練效果。數(shù)據(jù)標(biāo)注是有監(jiān)督學(xué)習(xí)的重要方式,也是生成式AI模型訓(xùn)練的重要環(huán)節(jié)。比如,《生成式人工智能服務(wù)管理暫行辦法》第八條即規(guī)定,在生成式人工智能技術(shù)研發(fā)過程中進(jìn)行數(shù)據(jù)標(biāo)注的,提供者應(yīng)當(dāng)制定符合本辦法要求的清晰、具體、可操作的標(biāo)注規(guī)則;開展數(shù)據(jù)標(biāo)注質(zhì)量評估,抽樣核驗標(biāo)注內(nèi)容的準(zhǔn)確性;對標(biāo)注人員進(jìn)行必要培訓(xùn),提升尊法守法意識,監(jiān)督指導(dǎo)標(biāo)注人員規(guī)范開展標(biāo)注工作。


而在國家主管部門的大模型備案系統(tǒng)中,開發(fā)單位備案應(yīng)提供的必備文件即包括語料標(biāo)注規(guī)則。此外,《信息安全技術(shù) 生成式人工智能數(shù)據(jù)標(biāo)注安全規(guī)范》也處于征求意見階段。由此可見,國家有關(guān)立法與技術(shù)標(biāo)準(zhǔn)對于訓(xùn)練過程均予以了關(guān)注并進(jìn)行了規(guī)制。


三、生成式AI訓(xùn)練過程的合規(guī)要點


1、訓(xùn)練合規(guī)制度體系的建立


生成式AI的研發(fā)企業(yè)應(yīng)建立與模型或算法訓(xùn)練有關(guān)的合規(guī)制度體系,主要包括:


(1)與訓(xùn)練數(shù)據(jù)獲取有關(guān)的管控制度


通過相應(yīng)的制度,對于訓(xùn)練語料數(shù)據(jù)的來源及其合法性進(jìn)行充分的管控。訓(xùn)練語料數(shù)據(jù)的來源可能包括開源數(shù)據(jù)集、向第三方獲取的商業(yè)數(shù)據(jù)集、公共數(shù)據(jù)、個人信息以及企業(yè)自行采集或生產(chǎn)的數(shù)據(jù),這些數(shù)據(jù)集可能包含不同的行業(yè)領(lǐng)域。


由于《生成式人工智能服務(wù)管理暫行辦法》對于訓(xùn)練數(shù)據(jù)有明確的禁止性規(guī)定,并且兜底規(guī)定了訓(xùn)練數(shù)據(jù)應(yīng)符合《中華人民共和國網(wǎng)絡(luò)安全法》、《中華人民共和國數(shù)據(jù)安全法》、《中華人民共和國個人信息保護(hù)法》等法律、行政法規(guī)的其他有關(guān)規(guī)定和有關(guān)主管部門的相關(guān)監(jiān)管要求。這就對訓(xùn)練數(shù)據(jù)的來源合規(guī)及內(nèi)容合規(guī)提出了很高的管控要求。因此,制定與訓(xùn)練數(shù)據(jù)獲取有關(guān)的合規(guī)制度,是生成式AI訓(xùn)練合規(guī)體系的重要內(nèi)容。


(2)與數(shù)據(jù)標(biāo)注有關(guān)的規(guī)則


數(shù)據(jù)標(biāo)注是生成式AI訓(xùn)練的重要環(huán)節(jié),研發(fā)企業(yè)通過人工或者自動化程序,基于對提示信息的響應(yīng)信息內(nèi)容,將特定信息如標(biāo)簽、類別或?qū)傩蕴砑拥轿谋尽D片、音頻、視頻或者其他數(shù)據(jù)樣本的過程。標(biāo)注后的數(shù)據(jù)通常用于訓(xùn)練和驗證機器學(xué)習(xí)模型,幫助模型學(xué)習(xí)如何從原始數(shù)據(jù)中提取有意義的模式和信息。數(shù)據(jù)標(biāo)注是監(jiān)督學(xué)習(xí)的重要內(nèi)容,數(shù)據(jù)標(biāo)準(zhǔn)質(zhì)量影響AI模型的質(zhì)量,同時也對AI生成內(nèi)容的合規(guī)性產(chǎn)生影響。


因此,數(shù)據(jù)標(biāo)注規(guī)則,以及圍繞數(shù)據(jù)標(biāo)注規(guī)則建立的數(shù)據(jù)標(biāo)注合規(guī)體系,如數(shù)據(jù)標(biāo)注的安全要求、數(shù)據(jù)標(biāo)注人員的安全要求、數(shù)據(jù)標(biāo)準(zhǔn)的核驗要求等,都需要在標(biāo)注規(guī)則中予以體現(xiàn)。


2、預(yù)訓(xùn)練數(shù)據(jù)的安全合規(guī)


預(yù)訓(xùn)練是生成式AI模型訓(xùn)練的基礎(chǔ),這一過程中,需要面對數(shù)據(jù)合規(guī)與數(shù)據(jù)安全問題。主要的問題包括以下方面:(1)使用他人作品用戶模型訓(xùn)練的的著作權(quán)保護(hù)問題。(2)以自動化程序(網(wǎng)絡(luò)爬蟲)獲取數(shù)據(jù)用于訓(xùn)練的合規(guī)性。(3)第三方商業(yè)數(shù)據(jù)用于模型訓(xùn)練的合規(guī)問題。(4)個人信息用于模型訓(xùn)練的合規(guī)問題。(5)公共數(shù)據(jù)訓(xùn)練模型的合規(guī)問題。以及其他相關(guān)專業(yè)領(lǐng)域數(shù)據(jù)用于模型訓(xùn)練的合規(guī)問題。生成式AI的研發(fā)企業(yè),應(yīng)嚴(yán)格遵循數(shù)據(jù)合規(guī)領(lǐng)域?qū)iT的法律、法規(guī)、規(guī)章以及行業(yè)性法律、法規(guī)、規(guī)章的要求,嚴(yán)格把關(guān),防范訓(xùn)練過程中產(chǎn)生數(shù)據(jù)合規(guī)風(fēng)險。此外,還應(yīng)采取嚴(yán)格的數(shù)據(jù)安全措施,防范數(shù)據(jù)泄露等安全風(fēng)險。由于預(yù)訓(xùn)練的數(shù)據(jù)合規(guī)涉及內(nèi)容較多,本文不做展開,后續(xù)將以專門的文章論述。


3、數(shù)據(jù)標(biāo)注的安全與合規(guī)


數(shù)據(jù)標(biāo)注過程中,可能涉及到本公司人員或第三方外包機構(gòu)人員對于數(shù)據(jù)的接觸,因而合規(guī)方面需要特別關(guān)注如下內(nèi)容:其一、如果標(biāo)注數(shù)據(jù)包含敏感個人信息,應(yīng)采取必要措施對敏感個人信息進(jìn)行匿名化處理,防止個人信息泄露或不當(dāng)利用風(fēng)險;其二、采取數(shù)據(jù)訪問控制策略,只允許經(jīng)過授權(quán)的標(biāo)注人員訪問;其三、標(biāo)注數(shù)據(jù)的備份,以防止數(shù)據(jù)丟失或損壞;其四、監(jiān)控和記錄準(zhǔn)備標(biāo)注的數(shù)據(jù)的訪問和修改記錄,以進(jìn)行數(shù)據(jù)安全審計;其五、如涉及第三方外包,需要對標(biāo)注任務(wù)的數(shù)據(jù)安全、數(shù)據(jù)刪除等進(jìn)行明確約定。此外,需要對標(biāo)注人員進(jìn)行過培訓(xùn),以確保其具備數(shù)據(jù)標(biāo)注的基本能力。在數(shù)據(jù)標(biāo)注后,還需要對標(biāo)注內(nèi)容進(jìn)行核驗,以核驗是否達(dá)到標(biāo)注質(zhì)量及標(biāo)注的安全要求。由于數(shù)據(jù)標(biāo)注合規(guī)涉及內(nèi)容較多,本文不做展開,后續(xù)將以專門的文章論述。


綜上,生成式AI模型訓(xùn)練是一個動態(tài)過程,對于研發(fā)企業(yè)而言,如何對訓(xùn)練過程進(jìn)行管控,既是模型質(zhì)量的基礎(chǔ),也是模型合規(guī)的保障。


欢迎光临: 常州市| 彩票| 遵化市| 汉川市| 郧西县| 杨浦区| 衡水市| 军事| 南漳县| 霍山县| 集安市| 皋兰县| 恩施市| 苏尼特左旗| 搜索| 石嘴山市| 冕宁县| 济南市| 南涧| 循化| 富阳市| 泾阳县| 永城市| 阿克苏市| 临澧县| 台中市| 汝阳县| 喀什市| 政和县| 阜新| 肥东县| 塘沽区| 湛江市| 西宁市| 信宜市| 台中市| 双城市| 长沙县| 道孚县| 海淀区| 乌兰察布市|