成全在线观看免费完整的,成全影视大全免费追剧大全,成全视频高清免费播放电视剧好剧,成全在线观看免费完整,成全在线观看高清全集,成全动漫视频在线观看完整版动画

×

打開微信,掃一掃二維碼
訂閱我們的微信公眾號(hào)

首頁(yè) 錦天城概況 黨建工作 專業(yè)領(lǐng)域 行業(yè)領(lǐng)域 專業(yè)人員 全球網(wǎng)絡(luò) 新聞資訊 出版刊物 加入我們 聯(lián)系我們 訂閱下載 CN EN JP
首頁(yè) > 全球網(wǎng)絡(luò) > 上海 > 出版刊物 > 專業(yè)文章 > 生成式人工智能企業(yè)合規(guī)及法律盡職調(diào)查要點(diǎn)(2):數(shù)據(jù)/語(yǔ)料和生成內(nèi)容安全篇

生成式人工智能企業(yè)合規(guī)及法律盡職調(diào)查要點(diǎn)(2):數(shù)據(jù)/語(yǔ)料和生成內(nèi)容安全篇

作者:肖海龍 張克江 2024-08-02
[摘要]上一篇從總體上概覽了生成式人工智能的主要風(fēng)險(xiǎn)和監(jiān)管體系,主要闡述了生成式人工智能企業(yè)的業(yè)務(wù)資質(zhì)要求和對(duì)算法、模型的監(jiān)管要求,本篇具體闡述有關(guān)數(shù)據(jù)/語(yǔ)料和生成內(nèi)容安全方面的合規(guī)要求。

上一篇從總體上概覽了生成式人工智能的主要風(fēng)險(xiǎn)和監(jiān)管體系,主要闡述了生成式人工智能企業(yè)的業(yè)務(wù)資質(zhì)要求和對(duì)算法、模型的監(jiān)管要求,本篇具體闡述有關(guān)數(shù)據(jù)/語(yǔ)料和生成內(nèi)容安全方面的合規(guī)要求。


五、有關(guān)訓(xùn)練數(shù)據(jù)/語(yǔ)料的合規(guī)要求


生成式人工智能是靠海量的語(yǔ)料、數(shù)據(jù)“喂”出來的,數(shù)據(jù)是影響人工智能技術(shù)創(chuàng)新最核心的要素之一,訓(xùn)練數(shù)據(jù)集的規(guī)模和質(zhì)量直接影響了生成式人工智能的學(xué)習(xí)能力和泛化能力。例如,文本到圖像生成模型Stable Diffusion使用了非營(yíng)利組織LAION收集的三個(gè)大型數(shù)據(jù)集進(jìn)行訓(xùn)練,包括58.5億個(gè)圖像-文本對(duì)。自然語(yǔ)言處理模型GPT-3則是由從45TB原始數(shù)據(jù)中過濾的570GB數(shù)據(jù)訓(xùn)練的,包括網(wǎng)站抓取數(shù)據(jù)集(Common Crawl)、網(wǎng)頁(yè)文本數(shù)據(jù)集(Web Text)、圖書語(yǔ)料庫(kù)和英語(yǔ)維基百科(Wikipedia),共設(shè)置了1,750億個(gè)參數(shù)。[19]

由于訓(xùn)練數(shù)據(jù)集具有來源廣泛、類型多樣、開發(fā)復(fù)雜、主體多元的特點(diǎn),因而訓(xùn)練數(shù)據(jù)集不是一個(gè)單一的權(quán)利客體,而是一種聚合型權(quán)益客體,涉及不同的權(quán)益形態(tài)。一般認(rèn)為,這些權(quán)益主要包括以下幾類:一是個(gè)人信息權(quán)益,主要體現(xiàn)為《個(gè)人信息保護(hù)法》第四章所規(guī)定的各項(xiàng)權(quán)利,如知情權(quán)、決定權(quán)、查閱復(fù)制權(quán)、更正權(quán)、刪除權(quán)等。二是隱私權(quán),主要體現(xiàn)為《民法典》第1032條所規(guī)定的私密信息、私密空間和私密活動(dòng)在大數(shù)據(jù)時(shí)代的數(shù)據(jù)化載體。三是知識(shí)產(chǎn)權(quán),主要表現(xiàn)為《著作權(quán)法》第10條所規(guī)定的各項(xiàng)權(quán)利,如發(fā)表權(quán)、署名權(quán)、復(fù)制權(quán)、修改權(quán)、保護(hù)作品完整權(quán)等。四是國(guó)家安全,主要體現(xiàn)為《數(shù)據(jù)安全法》和《國(guó)家安全法》有關(guān)“數(shù)據(jù)安全”和“國(guó)家安全”的規(guī)定。因此,訓(xùn)練數(shù)據(jù)集的治理需要考慮多方面的因素和不同的利益相關(guān)者。[20]


《暫行辦法》第7條規(guī)定了訓(xùn)練數(shù)據(jù)處理活動(dòng)的合規(guī)要求,包括:(1)使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型;(2)涉及知識(shí)產(chǎn)權(quán)的,不得侵害他人依法享有的知識(shí)產(chǎn)權(quán);(3)涉及個(gè)人信息的,應(yīng)當(dāng)取得個(gè)人同意或者符合法律、行政法規(guī)規(guī)定的其他情形;(4)采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,增強(qiáng)訓(xùn)練數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性;(5)遵守《網(wǎng)絡(luò)安全法》、《數(shù)據(jù)安全法》、《個(gè)人信息保護(hù)法》等法律、行政法規(guī)的其他有關(guān)規(guī)定和有關(guān)主管部門的相關(guān)監(jiān)管要求。


《基本要求》定義了“訓(xùn)練語(yǔ)料”,即所有直接作為模型訓(xùn)練輸入的數(shù)據(jù),包括預(yù)訓(xùn)練、優(yōu)化訓(xùn)練過程中的輸入數(shù)據(jù),并提出了語(yǔ)料安全的以下具體要求:


1.  訓(xùn)練數(shù)據(jù)/語(yǔ)料來源安全


就語(yǔ)料來源安全而言,《基本要求》要求采集特定來源語(yǔ)料前,應(yīng)對(duì)該來源語(yǔ)料進(jìn)行安全評(píng)估,采集后,應(yīng)對(duì)所采集的該來源語(yǔ)料進(jìn)行核驗(yàn),語(yǔ)料內(nèi)容中含違法不良信息超過5%的,不應(yīng)采集或使用,我國(guó)網(wǎng)絡(luò)安全相關(guān)法律和政策要求阻斷的信息,不應(yīng)作為語(yǔ)料。同時(shí),應(yīng)當(dāng)搭配不同來源的語(yǔ)料,提高語(yǔ)料來源的多樣性,并取得相關(guān)語(yǔ)料的授權(quán)文件或采集記錄等,以確保語(yǔ)料來源可追溯。具體如下:


(1)語(yǔ)料來源管理方面:


(a)面向特定語(yǔ)料來源進(jìn)行采集前,應(yīng)對(duì)該來源語(yǔ)料進(jìn)行安全評(píng)估,語(yǔ)料內(nèi)容中含違法不良信息超過5%的,不應(yīng)采集該來源語(yǔ)料;


(b)面向特定語(yǔ)料來源進(jìn)行采集后,應(yīng)對(duì)所采集的該來源語(yǔ)料進(jìn)行核驗(yàn),含違法不良信息情況超過5%的,不應(yīng)使用該來源語(yǔ)料進(jìn)行訓(xùn)練。


(2)不同來源語(yǔ)料搭配方面:


應(yīng)提高語(yǔ)料來源的多樣性,對(duì)每一種語(yǔ)言的語(yǔ)料,如中文、英文等,以及每一種類型的語(yǔ)料,如文本、圖片、音頻、視頻等,均應(yīng)有多個(gè)語(yǔ)料來源;如需使用境外語(yǔ)料,應(yīng)合理搭配境內(nèi)外來源語(yǔ)料。

(3)語(yǔ)料來源可追溯方面:


(a)使用開源語(yǔ)料時(shí),應(yīng)具有該語(yǔ)料來源的開源許可協(xié)議或相關(guān)授權(quán)文件;


(b)使用自采語(yǔ)料時(shí),應(yīng)具有采集記錄,不應(yīng)采集他人已明確不可采集的語(yǔ)料(自采語(yǔ)料包括自行生產(chǎn)的語(yǔ)料以及從互聯(lián)網(wǎng)采集的語(yǔ)料。明確不可采集的語(yǔ)料,例如已通過robots協(xié)議或其他限制采集的技術(shù)手段明確表明不可采集的網(wǎng)頁(yè)數(shù)據(jù),或個(gè)人已拒絕授權(quán)采集的個(gè)人信息等。);


(c)使用商業(yè)語(yǔ)料時(shí):


 —— 應(yīng)有具備法律效力的交易合同、合作協(xié)議等;

 —— 交易方或合作方不能提供語(yǔ)料來源、質(zhì)量、安全等方面的承諾以及相關(guān)證明材料時(shí),不應(yīng)使用該語(yǔ)料;

—— 應(yīng)對(duì)交易方或合作方所提供語(yǔ)料、承諾、材料進(jìn)行審核。


(d)將使用者輸入信息當(dāng)作語(yǔ)料時(shí),應(yīng)具有使用者授權(quán)記錄。


(4)按照我國(guó)網(wǎng)絡(luò)安全相關(guān)法律法規(guī)及政策文件要求阻斷的信息,不應(yīng)作為語(yǔ)料。



值得強(qiáng)調(diào)的是,當(dāng)服務(wù)提供者使用商業(yè)語(yǔ)料時(shí),應(yīng)當(dāng)對(duì)交易方或合作方所提供的語(yǔ)料、承諾、材料進(jìn)行合規(guī)審查,交易方或合作方不能提供語(yǔ)料來源、質(zhì)量、安全等方面的承諾以及相關(guān)證明材料時(shí),不應(yīng)使用該語(yǔ)料。服務(wù)提供者將使用者自行輸入的信息用作后續(xù)訓(xùn)練的語(yǔ)料時(shí),由于用戶可能會(huì)無(wú)意識(shí)地將隱私信息用于人機(jī)交互過程中,如個(gè)人姓名、性別、地址、人臉生物識(shí)別信息等,這些信息可能會(huì)被算法模型收集并成為后續(xù)訓(xùn)練的學(xué)習(xí)素材。這些隱私信息的泄露、濫用可能會(huì)給用戶帶來潛在的安全隱患,損害個(gè)人信息權(quán)。因此,應(yīng)獲得使用者/輸入者的授權(quán)才能將其自行輸入的信息用作后續(xù)訓(xùn)練的語(yǔ)料。


關(guān)于外購(gòu)數(shù)據(jù)的知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)責(zé)任,在全國(guó)首例認(rèn)定數(shù)據(jù)交易買受人侵犯商業(yè)秘密的案例——重慶光某摩托車制造有限公司與廣州三某摩托車有限公司侵犯商業(yè)秘密糾紛案中,重慶兩江新區(qū)(自貿(mào)區(qū))人民法院認(rèn)為,數(shù)據(jù)交易買受人在接收數(shù)據(jù)時(shí)負(fù)有審慎注意義務(wù),數(shù)據(jù)交易買受人明知或應(yīng)當(dāng)知道數(shù)據(jù)涉及他人的商業(yè)秘密仍予接收并使用的,應(yīng)當(dāng)與數(shù)據(jù)提供者承擔(dān)共同侵權(quán)責(zé)任。


關(guān)于收集公開數(shù)據(jù),2023年4月,著名媒體公司Reddit突然宣布將開始向過度使用其數(shù)據(jù)API的公司谷歌、OpenAI等收數(shù)據(jù)費(fèi),而此前該平臺(tái)的內(nèi)容可以被免費(fèi)爬取用作大語(yǔ)言模型訓(xùn)練。Reddit還在其官網(wǎng)更新了各種開發(fā)工具和服務(wù)的使用條款,要求未經(jīng)Reddit明確同意,不得將Reddit上的內(nèi)容用于模型訓(xùn)練,不得將使用Reddit數(shù)據(jù)訓(xùn)練的模型用于商業(yè)用途。2024年2月22日, 谷歌與Reddit達(dá)成協(xié)議,獲得授權(quán)將該平臺(tái)上的內(nèi)容用于訓(xùn)練谷歌的人工智能模型,合同價(jià)值約為每年6,000萬(wàn)美元。在國(guó)內(nèi),2023年6月13日,筆神作文發(fā)布“關(guān)于‘學(xué)而思’AI大模型侵權(quán)事件的聲明”稱,4月13日至17日,學(xué)而思通過“爬蟲”技術(shù)非法訪問、緩存筆神作文APP服務(wù)器數(shù)據(jù)多達(dá)258萬(wàn)次,嚴(yán)重侵犯了筆神作文APP的數(shù)據(jù)權(quán)益。


《上海數(shù)據(jù)交易所數(shù)據(jù)交易安全合規(guī)指引》對(duì)收集公開數(shù)據(jù)、自行生產(chǎn)數(shù)據(jù)、協(xié)議獲取數(shù)據(jù)、收集個(gè)人信息等分別提出了以下不同的合規(guī)要求,以保障數(shù)據(jù)來源的合法性,可作為生成式人工智能服務(wù)者的參考:


(1)收集公開數(shù)據(jù):使用自動(dòng)化工具收集公開數(shù)據(jù)的,應(yīng)當(dāng)符合以下要求:(a)不得以不正當(dāng)競(jìng)爭(zhēng)為目的,違反誠(chéng)實(shí)信用獲取數(shù)據(jù);(b)不得違法侵入涉密網(wǎng)站和計(jì)算機(jī)信息系統(tǒng)獲取數(shù)據(jù);(c)不得以非法獲取內(nèi)部訪問、操作權(quán)限等方式,未經(jīng)授權(quán)或超越授權(quán)范圍獲取數(shù)據(jù);(d)不得干擾被訪問網(wǎng)站的正常運(yùn)營(yíng)或者妨礙計(jì)算機(jī)信息系統(tǒng)正常運(yùn)行;(e)不得以技術(shù)破解方式突破網(wǎng)站、計(jì)算機(jī)信息系統(tǒng)為保護(hù)數(shù)據(jù)而設(shè)置的技術(shù)保護(hù)措施;(f)未征得相關(guān)主體同意的,不得收集涉及他人知識(shí)產(chǎn)權(quán)、商業(yè)秘密或者非公開的個(gè)人信息的數(shù)據(jù);及(g)法律法規(guī)規(guī)定的其他要求。


(2)自行生產(chǎn)數(shù)據(jù):在生產(chǎn)經(jīng)營(yíng)活動(dòng)中產(chǎn)生的或通過自身信息系統(tǒng)生產(chǎn)的數(shù)據(jù),應(yīng)確保數(shù)據(jù)的生產(chǎn)和處理行為合法,不存在侵犯第三方合法權(quán)益的情形。


(3)協(xié)議獲取數(shù)據(jù):通過采購(gòu)、共享、授權(quán)許可等方式獲取數(shù)據(jù)的,應(yīng)當(dāng)符合以下要求:(a)保存數(shù)據(jù)采購(gòu)協(xié)議、共享或授權(quán)許可文件,并在其中約定數(shù)據(jù)交易供方應(yīng)取得對(duì)相關(guān)數(shù)據(jù)的授權(quán)使用、加工、對(duì)外提供等相應(yīng)權(quán)利;(b)確認(rèn)數(shù)據(jù)來源方已取得特殊資質(zhì)、許可、認(rèn)證或備案(若需要);(c)確認(rèn)數(shù)據(jù)來源方已提供數(shù)據(jù)獲取渠道合法、權(quán)利清晰無(wú)爭(zhēng)議的承諾;及(d)法律法規(guī)及相關(guān)政策規(guī)定的其他要求。


(4)收集個(gè)人信息:在生產(chǎn)經(jīng)營(yíng)活動(dòng)中收集個(gè)人數(shù)據(jù)的,應(yīng)當(dāng)符合以下要求:(a)基于個(gè)人同意處理個(gè)人信息的,僅收集與實(shí)現(xiàn)產(chǎn)品或服務(wù)的業(yè)務(wù)功能直接相關(guān)的個(gè)人信息,并且限于實(shí)現(xiàn)處理目的最短周期、最低頻次,采取對(duì)個(gè)人權(quán)益影響最小的方式;(b)應(yīng)當(dāng)按照法律法規(guī)要求獲得個(gè)人信息主體的同意或單獨(dú)同意,并能夠提供相關(guān)證明材料;(c)交易數(shù)據(jù)涉及個(gè)人信息處理的,應(yīng)當(dāng)事先進(jìn)行個(gè)人信息保護(hù)影響評(píng)估或取得個(gè)人信息保護(hù)認(rèn)證;(d)采取去標(biāo)識(shí)化、匿名化等安全技術(shù)措施,防止未經(jīng)授權(quán)的訪問以及個(gè)人信息泄露、篡改和丟失;(e)法律法規(guī)規(guī)定的其他要求。


2.    語(yǔ)料內(nèi)容安全


《暫行辦法》第9條規(guī)定,提供者應(yīng)當(dāng)依法承擔(dān)網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者責(zé)任。《基本要求》要求服務(wù)者采取關(guān)鍵詞、分類模型、人工抽檢等方式,過濾語(yǔ)料中的違法不良信息;語(yǔ)料用于訓(xùn)練前,應(yīng)進(jìn)行知識(shí)產(chǎn)權(quán)侵權(quán)風(fēng)險(xiǎn)識(shí)別,不使用存在知識(shí)產(chǎn)權(quán)侵權(quán)風(fēng)險(xiǎn)的語(yǔ)料進(jìn)行訓(xùn)練,語(yǔ)料中包含文學(xué)、藝術(shù)、科學(xué)作品的,應(yīng)重點(diǎn)識(shí)別語(yǔ)料以及生成內(nèi)容中的著作權(quán)侵權(quán)問題;同時(shí),應(yīng)建立知識(shí)產(chǎn)權(quán)問題的投訴舉報(bào)渠道;并在用戶服務(wù)協(xié)議中告知用戶使用生成內(nèi)容的知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)及關(guān)于知識(shí)產(chǎn)權(quán)問題識(shí)別的責(zé)任與義務(wù);以及,使用包含個(gè)人信息的語(yǔ)料前,應(yīng)取得相應(yīng)個(gè)人的同意,使用包含人臉等生物特征或其他敏感個(gè)人信息的語(yǔ)料前,應(yīng)取得對(duì)應(yīng)個(gè)人單獨(dú)同意或者符合法律、行政法規(guī)規(guī)定的其他情形等。


值得注意的是,《基本要求》在其附錄中列出了31種“語(yǔ)料及生成內(nèi)容的主要安全風(fēng)險(xiǎn)” ,并要求建立相應(yīng)規(guī)模的、覆蓋所列風(fēng)險(xiǎn)的關(guān)鍵詞庫(kù)、生成內(nèi)容測(cè)試題庫(kù)、拒答測(cè)試題庫(kù),且相關(guān)關(guān)鍵詞庫(kù)與測(cè)試題庫(kù)應(yīng)定期更新,以確保語(yǔ)料和生成內(nèi)容合規(guī)、安全。以及,應(yīng)建立覆蓋全部所列風(fēng)險(xiǎn)的分類模型,用于語(yǔ)料內(nèi)容過濾和生成內(nèi)容安全評(píng)估。


關(guān)于知識(shí)產(chǎn)權(quán)問題的投訴舉報(bào)機(jī)制。這個(gè)機(jī)制可供權(quán)利人向生成式人工智能服務(wù)提供者發(fā)出侵權(quán)通知,服務(wù)提供者在收到侵權(quán)通知并判定侵權(quán)成立后,應(yīng)及時(shí)采取必要措施停止侵權(quán),在生成階段采取對(duì)提示詞進(jìn)行關(guān)鍵詞過濾等措施阻止人工智能繼續(xù)生成與權(quán)利人作品構(gòu)成實(shí)質(zhì)性相似的生成物。在上海新創(chuàng)華文化發(fā)展有限公司訴廣州某網(wǎng)絡(luò)科技公司侵犯奧特曼形象版權(quán)案[21]中,法院將被告經(jīng)營(yíng)的Tab網(wǎng)站未建立投訴舉報(bào)機(jī)制,使得權(quán)利人難以通過投訴舉報(bào)機(jī)制來保護(hù)其著作權(quán),作為衡量被告應(yīng)承擔(dān)的賠償責(zé)任的重要考慮因素。


3.    語(yǔ)料標(biāo)注安全要求


《暫行辦法》第8條規(guī)定,在生成式人工智能技術(shù)研發(fā)過程中進(jìn)行數(shù)據(jù)標(biāo)注的,提供者應(yīng)當(dāng)制定符合《暫行辦法》要求的清晰、具體、可操作的標(biāo)注規(guī)則;開展數(shù)據(jù)標(biāo)注質(zhì)量評(píng)估,抽樣核驗(yàn)標(biāo)注內(nèi)容的準(zhǔn)確性;對(duì)標(biāo)注人員進(jìn)行必要培訓(xùn),提升尊法守法意識(shí),監(jiān)督指導(dǎo)標(biāo)注人員規(guī)范開展標(biāo)注工作。


《基本要求》要求服務(wù)提供者自行對(duì)標(biāo)注人員進(jìn)行安全培訓(xùn)和考核;對(duì)標(biāo)注人員進(jìn)行職能分工,將數(shù)據(jù)標(biāo)注和數(shù)據(jù)審核崗位職責(zé)分離;對(duì)功能性標(biāo)注以及安全性標(biāo)注分別制定標(biāo)注規(guī)則,對(duì)功能性標(biāo)注應(yīng)對(duì)每一批標(biāo)注語(yǔ)料進(jìn)行人工抽檢,對(duì)安全性標(biāo)注每一條標(biāo)注語(yǔ)料至少經(jīng)由一名審核人員審核通過;以及,對(duì)安全性標(biāo)注數(shù)據(jù)進(jìn)行隔離存儲(chǔ)等。


六.   模型安全和生成內(nèi)容安全


采用深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)算法的人工智能模型通常需要大量的參數(shù)和層級(jí),模型的內(nèi)部結(jié)構(gòu)非常復(fù)雜,這種復(fù)雜性使得理解每個(gè)單元對(duì)最終結(jié)果的具體影響變得非常困難,因此往往被視為黑箱。所謂算法黑箱,是指專業(yè)人士也不了解算法的全部情況。“生成式模型是復(fù)雜的深度學(xué)習(xí)模型,內(nèi)容生成過程缺乏可解釋性,研發(fā)和服務(wù)提供者都難以解釋模型生成內(nèi)容的具體邏輯”,使得“無(wú)論是監(jiān)管者還是被監(jiān)管者,都難以準(zhǔn)確把握算法技術(shù)創(chuàng)新應(yīng)用過程中可能出現(xiàn)的風(fēng)險(xiǎn),以及導(dǎo)致風(fēng)險(xiǎn)的原因”[22],因而難以保證模型生成內(nèi)容的安全及準(zhǔn)確性和可靠性。


《暫行辦法》第4條第(五)項(xiàng)規(guī)定,提供和使用生成式人工智能服務(wù)應(yīng)當(dāng)采取有效措施,提高生成內(nèi)容的準(zhǔn)確性和可靠性。《基本要求》要求服務(wù)提供者基于第三方基礎(chǔ)模型提供服務(wù)的,應(yīng)使用已經(jīng)主管部門備案的基礎(chǔ)模型;要求在每次對(duì)話中應(yīng)對(duì)使用者輸入信息進(jìn)行安全性檢測(cè),引導(dǎo)模型生成積極正向內(nèi)容,建立常態(tài)化監(jiān)測(cè)測(cè)評(píng)手段,及時(shí)處置監(jiān)測(cè)測(cè)評(píng)中發(fā)現(xiàn)的問題,并通過針對(duì)性的指令微調(diào)、強(qiáng)化學(xué)習(xí)等方式優(yōu)化模型,確保模型生成內(nèi)容安全;以及,采取技術(shù)措施提高生成內(nèi)容響應(yīng)使用者輸入意圖的能力,提高生成內(nèi)容格式框架的合理性以及有效內(nèi)容的含量,減少其中的錯(cuò)誤內(nèi)容,提高生成內(nèi)容對(duì)使用者的幫助作用,以提高模型生成內(nèi)容的準(zhǔn)確性、可靠性。


在國(guó)內(nèi)首起對(duì)生成式人工智能服務(wù)提供者未盡到內(nèi)容審核義務(wù)進(jìn)行行政處罰的案例中,重慶市九龍坡區(qū)網(wǎng)信辦認(rèn)為,重慶初唱科技有限公司運(yùn)營(yíng)的“開山猴AI寫作大師”網(wǎng)站違規(guī)生成法律法規(guī)禁止的信息,未盡到內(nèi)容審核義務(wù),違反了《網(wǎng)絡(luò)安全法》、《生成式人工智能服務(wù)管理暫行辦法》等相關(guān)法律法規(guī),依據(jù)《網(wǎng)絡(luò)安全法》第68條的規(guī)定,給予其行政警告處罰,并責(zé)令該公司限期全面整改,加強(qiáng)信息內(nèi)容審核,健全信息內(nèi)容安全管理相關(guān)制度,暫停網(wǎng)站信息更新及AI算法生成式寫作功能15日。


七.  人工智能生成物標(biāo)識(shí)義務(wù)


所謂標(biāo)識(shí),是指生成式人工智能服務(wù)提供者以讓人可以感知的方式進(jìn)行標(biāo)識(shí),從而使得公眾能夠認(rèn)知到生成物是由人工智能生成。對(duì)人工智能生成物進(jìn)行標(biāo)識(shí),對(duì)于防范人工智能被濫用導(dǎo)致的公共安全風(fēng)險(xiǎn)有著極其重要的意義。經(jīng)標(biāo)識(shí)后,有關(guān)權(quán)利人能夠明確認(rèn)識(shí)到生成物系由人工智能生成,進(jìn)而采取更具針對(duì)性和有效性的保護(hù)性措施,更好地保護(hù)其權(quán)利。因此,標(biāo)識(shí)義務(wù)不僅是對(duì)公眾知情權(quán)的尊重,也是對(duì)權(quán)利人的一種保護(hù)。


對(duì)人工智能生成物的標(biāo)識(shí)義務(wù)最早見于2019年11月18日 發(fā)布的《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》。該《規(guī)定》第11條規(guī)定,網(wǎng)絡(luò)音視頻信息服務(wù)提供者和使用者利用基于深度學(xué)習(xí)、虛擬現(xiàn)實(shí)等的新技術(shù)新應(yīng)用制作、發(fā)布、傳播非真實(shí)音視頻信息的,應(yīng)當(dāng)以顯著方式予以標(biāo)識(shí)。這一規(guī)定的目的是防止網(wǎng)絡(luò)音視頻信息服務(wù)提供者和使用者利用基于深度學(xué)習(xí)、虛擬現(xiàn)實(shí)等的新技術(shù)新應(yīng)用制作、發(fā)布、傳播虛假新聞信息。


2021年4月23日發(fā)布的《網(wǎng)絡(luò)直播營(yíng)銷管理辦法(試行)》第13條規(guī)定,對(duì)利用人工智能、數(shù)字視覺、虛擬現(xiàn)實(shí)、語(yǔ)音合成等技術(shù)展示的虛擬形象從事網(wǎng)絡(luò)直播營(yíng)銷的,應(yīng)當(dāng)按照有關(guān)規(guī)定進(jìn)行安全評(píng)估,并以顯著方式予以標(biāo)識(shí)。


《暫行辦法》第12條規(guī)定,對(duì)于生成內(nèi)容應(yīng)當(dāng)按照《深度合成管理規(guī)定》進(jìn)行標(biāo)識(shí)。《深度合成管理規(guī)定》規(guī)定了兩種內(nèi)容標(biāo)識(shí)義務(wù):(1)不影響用戶使用的標(biāo)識(shí):深度合成服務(wù)提供者對(duì)使用其服務(wù)生成或者編輯的信息內(nèi)容,應(yīng)當(dāng)采取技術(shù)措施添加不影響用戶使用的標(biāo)識(shí)(第16條);(2)顯著標(biāo)識(shí):提供智能對(duì)話、智能寫作、合成人聲、仿聲、人臉生成、人臉替換、沉浸式擬真場(chǎng)景等具有生成或者顯著改變信息內(nèi)容功能服務(wù)的,應(yīng)當(dāng)在生成或者編輯的信息內(nèi)容的合理位置、區(qū)域進(jìn)行顯著標(biāo)識(shí),向公眾提示信息內(nèi)容的合成情況,避免公眾混淆或者誤認(rèn)(第17條)。且該《規(guī)定》第18條規(guī)定,任何組織和個(gè)人不得采用技術(shù)手段刪除、篡改、隱匿上述深度合成標(biāo)識(shí)。


全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布的《生成式人工智能服務(wù)內(nèi)容標(biāo)識(shí)方法》(TC260-PG-20233A)給出了生成式人工智能服務(wù)提供者對(duì)生成內(nèi)容進(jìn)行標(biāo)識(shí)的方法和技術(shù)要求。該文件要求,由人工智能生成圖片、視頻時(shí),應(yīng)采用在畫面中添加提示文字的方式進(jìn)行標(biāo)識(shí),提示文字內(nèi)容應(yīng)至少包含“人工智能生成”或“AI 生成”等信息,并以添加隱式水印標(biāo)識(shí)的方式提示服務(wù)提供者名稱等。


八.   安全措施要求


《暫行辦法》以《網(wǎng)絡(luò)安全法》、《數(shù)據(jù)安全法》、《個(gè)人信息保護(hù)法》等法律、行政法規(guī)為上位法,服務(wù)者應(yīng)采取一系列安全措施,保障網(wǎng)絡(luò)安全、數(shù)據(jù)安全、保護(hù)個(gè)人信息,保護(hù)公眾利益。


《基本要求》要求生成式人工智能服務(wù)者采取以下安全措施:


(1)從模型適用人群、場(chǎng)合、用途方面設(shè)置的安全措施:要求服務(wù)用于關(guān)鍵信息基礎(chǔ)設(shè)施,以及如自動(dòng)控制、醫(yī)療信息服務(wù)、心理咨詢、金融信息服務(wù)等重要場(chǎng)合的,應(yīng)具備與風(fēng)險(xiǎn)程度以及場(chǎng)景相適應(yīng)的保護(hù)措施;服務(wù)適用于未成年人的,應(yīng)采取允許監(jiān)護(hù)人設(shè)定防未成年人沉迷措施、不向未成年人提供與其民事行為能力不符的付費(fèi)服務(wù)等措施保護(hù)未成年人;服務(wù)不適用于未成年人的,應(yīng)采取技術(shù)或管理措施防止未成年人使用。


(2)服務(wù)透明度:要求公開服務(wù)適用的人群、場(chǎng)合、用途,服務(wù)的局限性,所使用的模型、算法等方面的概要信息,以及所采集的個(gè)人信息及其在服務(wù)中的用途等信息。


(3)當(dāng)收集使用者輸入信息用于訓(xùn)練時(shí):應(yīng)采用“顯著告知+允許使用者便捷關(guān)閉”的機(jī)制保護(hù)使用者利益。


(4)圖片、視頻等內(nèi)容標(biāo)識(shí)方面,應(yīng)滿足國(guó)家相關(guān)規(guī)定以及國(guó)家標(biāo)準(zhǔn)要求。[25]


(5)訓(xùn)練、推理所采用的計(jì)算系統(tǒng)方面:要求從系統(tǒng)所采用的芯片、軟件、工具、算力等方面確保供應(yīng)鏈安全,保障生成式人工智能系統(tǒng)運(yùn)行在安全可信環(huán)境中。


(6)接受公眾或使用者投訴舉報(bào)方面:應(yīng)提供接受公眾或使用者投訴舉報(bào)的途徑及反饋方式,并設(shè)定接受公眾或使用者投訴舉報(bào)的處理規(guī)則以及處理時(shí)限。


(7)向使用者提供服務(wù)方面:應(yīng)采取關(guān)鍵詞、分類模型等方式對(duì)使用者輸入信息進(jìn)行檢測(cè),對(duì)多次輸入違法不良信息或明顯誘導(dǎo)生成違法不良信息的,應(yīng)采取暫停提供服務(wù)等處置措施;對(duì)明顯偏激以及明顯誘導(dǎo)生成違法不良信息的問題,應(yīng)拒絕回答;設(shè)置監(jiān)看人員,并及時(shí)根據(jù)監(jiān)看情況提高生成內(nèi)容質(zhì)量及安全。


(8)模型更新、升級(jí)方面:應(yīng)制定在模型更新、升級(jí)時(shí)的安全管理策略;在模型重要更新、升級(jí)后,再次自行組織安全評(píng)估。


(9)服務(wù)穩(wěn)定、持續(xù)方面:應(yīng)隔離訓(xùn)練環(huán)境與推理環(huán)境,避免數(shù)據(jù)泄露和不當(dāng)訪問;對(duì)模型輸入內(nèi)容持續(xù)監(jiān)測(cè),防范惡意輸入攻擊;應(yīng)定期對(duì)所使用的開發(fā)框架、代碼等進(jìn)行安全審計(jì);建立數(shù)據(jù)、模型、框架、工具等的備份機(jī)制以及恢復(fù)策略等。


九.  安全評(píng)估義務(wù)


2018年11月15日發(fā)布的《具有輿論屬性或社會(huì)動(dòng)員能力的互聯(lián)網(wǎng)信息服務(wù)安全評(píng)估規(guī)定》已開始對(duì)具有輿論屬性或社會(huì)動(dòng)員能力的互聯(lián)網(wǎng)信息服務(wù)和相關(guān)新技術(shù)新應(yīng)用實(shí)施專門的安全管理,要求互聯(lián)網(wǎng)信息服務(wù)提供者存在具有輿論屬性或社會(huì)動(dòng)員能力的信息服務(wù)上線,或者信息服務(wù)增設(shè)相關(guān)功能等情形的,應(yīng)當(dāng)依照規(guī)定自行開展安全評(píng)估。

2019年11月18日 發(fā)布的《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》第10條規(guī)定,網(wǎng)絡(luò)音視頻信息服務(wù)提供者基于深度學(xué)習(xí)、虛擬現(xiàn)實(shí)等新技術(shù)新應(yīng)用上線具有媒體屬性或者社會(huì)動(dòng)員功能的音視頻信息服務(wù),或者調(diào)整增設(shè)相關(guān)功能的,應(yīng)當(dāng)按照國(guó)家有關(guān)規(guī)定開展安全評(píng)估。


2021年4月23日發(fā)布的《網(wǎng)絡(luò)直播營(yíng)銷管理辦法(試行)》第13條規(guī)定,對(duì)利用人工智能、數(shù)字視覺、虛擬現(xiàn)實(shí)、語(yǔ)音合成等技術(shù)展示的虛擬形象從事網(wǎng)絡(luò)直播營(yíng)銷的,應(yīng)當(dāng)按照有關(guān)規(guī)定進(jìn)行安全評(píng)估,并以顯著方式予以標(biāo)識(shí)。


2021年12月31日 發(fā)布的《算法推薦管理規(guī)定》第27條和2022年11月25日發(fā)布的《深度合成管理規(guī)定》第20條規(guī)定,具有輿論屬性或者社會(huì)動(dòng)員能力的算法推薦服務(wù)、深度合成服務(wù)提供者應(yīng)當(dāng)按照國(guó)家有關(guān)規(guī)定開展安全評(píng)估。《暫行辦法》第19條也相應(yīng)規(guī)定了“提供具有輿論屬性或者社會(huì)動(dòng)員能力的生成式人工智能服務(wù)的,應(yīng)當(dāng)按照國(guó)家有關(guān)規(guī)定開展安全評(píng)估”。


如本文第一篇“業(yè)務(wù)資質(zhì)和算法模型監(jiān)管篇”之“算法備案”一節(jié)所述,《具有輿論屬性或社會(huì)動(dòng)員能力的互聯(lián)網(wǎng)信息服務(wù)安全評(píng)估規(guī)定》是從信息傳播渠道本身是否具有媒體屬性,是否提供公眾輿論表達(dá)渠道的角度來定義是否具有輿論屬性或社會(huì)動(dòng)員能力的,不問是否實(shí)際從事或進(jìn)行了調(diào)動(dòng)輿論、動(dòng)員社會(huì)的活動(dòng),具備短視頻、網(wǎng)絡(luò)直播、信息分享、小程序等信息服務(wù)功能的生成式人工智能服務(wù),均視為具有輿論屬性或者社會(huì)動(dòng)員能力,均應(yīng)履行安全評(píng)估義務(wù)。


另外,《深度合成管理規(guī)定》第15條規(guī)定,生成或者編輯人臉、人聲等生物識(shí)別信息,或者生成或者編輯可能涉及國(guó)家安全、國(guó)家形象、國(guó)家利益和社會(huì)公共利益的特殊物體、場(chǎng)景等非生物識(shí)別信息的,應(yīng)當(dāng)依法自行或者委托專業(yè)機(jī)構(gòu)開展安全評(píng)估。生成式人工智能服務(wù)提供者生成圖片、音頻、視頻的,可能難以排除生成人臉、人聲,或者可能涉及國(guó)家安全、國(guó)家形象、國(guó)家利益和社會(huì)公共利益的特殊物體、場(chǎng)景的可能性,應(yīng)當(dāng)依法自行或者委托專業(yè)機(jī)構(gòu)開展安全評(píng)估。


《基本要求》是《暫行辦法》的支持性文件,提出了服務(wù)提供者需遵循的安全基本要求。服務(wù)提供者在按照有關(guān)要求履行備案手續(xù)時(shí),應(yīng)按照《基本要求》第9章的要求進(jìn)行安全評(píng)估,安全評(píng)估應(yīng)覆蓋該文件第5章至第8章中所有條款,即覆蓋有關(guān)語(yǔ)料安全、模型安全、安全措施、關(guān)鍵詞庫(kù)等其他要求的所有條款,每個(gè)條款均應(yīng)形成單獨(dú)的評(píng)估結(jié)果,結(jié)果為符合的,應(yīng)具有充分的證明材料;并將評(píng)估結(jié)果以及相關(guān)證明、支撐材料寫入評(píng)估報(bào)告:評(píng)估報(bào)告應(yīng)符合履行備案手續(xù)時(shí)的相關(guān)要求。自行或者委托專業(yè)機(jī)構(gòu)完成評(píng)估后,應(yīng)登陸全國(guó)互聯(lián)網(wǎng)安全管理服務(wù)平臺(tái)(網(wǎng)址:https://beian.mps.gov.cn),按要求填寫并提交材料,由公安機(jī)關(guān)網(wǎng)上進(jìn)行評(píng)估。


根據(jù)重慶網(wǎng)信部門2024年7月22日通報(bào),“南川區(qū)蓉城網(wǎng)絡(luò)科技工作室”未經(jīng)安全評(píng)估上線提供ChatGPT生成式人工智能信息服務(wù),網(wǎng)信部門依法開展執(zhí)法約談,責(zé)令立即關(guān)停相關(guān)服務(wù)。


十.   倫理規(guī)范和倫理審查


在人工智能治理領(lǐng)域,以倫理規(guī)范、技術(shù)標(biāo)準(zhǔn)、監(jiān)管指引、基準(zhǔn)測(cè)試、可信認(rèn)證等多種形式為內(nèi)容的“軟法”治理占據(jù)著重要的地位。與法律法規(guī)等“硬法”相比,“軟法”中包含一系列人工智能研發(fā)與部署活動(dòng)中應(yīng)當(dāng)遵循的價(jià)值準(zhǔn)則和行為規(guī)范,例如,“謹(jǐn)慎對(duì)待可能具備欺騙人類、自我復(fù)制、自我改造能力的人工智能,并重點(diǎn)關(guān)注生成式人工智能可能被用于編寫惡意軟件、制造生物武器或化學(xué)武器等安全風(fēng)險(xiǎn)”,不僅有利于凝聚技術(shù)、產(chǎn)業(yè)、政策等各界共識(shí),還可以在人工智能技術(shù)研發(fā)早期發(fā)揮重要的約束和指引作用。[24]


人工智能倫理是一套采用廣泛接受的是非標(biāo)準(zhǔn)來指導(dǎo)人工智能技術(shù)開發(fā)和使用中的道德行為的價(jià)值觀、原則和技術(shù),以應(yīng)對(duì)偏見、歧視、隱私侵犯、不透明性、個(gè)人權(quán)利剝奪、社會(huì)孤立和不可靠結(jié)果等風(fēng)險(xiǎn),營(yíng)造人工智能保障生態(tài)系統(tǒng),提高公眾信任度。《暫行辦法》第4條規(guī)定了生成式人工智能服務(wù)應(yīng)當(dāng)遵循的倫理規(guī)范和倫理義務(wù),要求提供和使用生成式人工智能服務(wù)應(yīng)當(dāng)尊重社會(huì)公德和倫理道德,在算法設(shè)計(jì)、訓(xùn)練數(shù)據(jù)選擇、模型生成和優(yōu)化、提供服務(wù)等過程中,采取有效措施防止產(chǎn)生民族、信仰、國(guó)別、地域、性別、年齡、職業(yè)、健康等歧視;不得利用算法、數(shù)據(jù)、平臺(tái)等優(yōu)勢(shì),實(shí)施壟斷和不正當(dāng)競(jìng)爭(zhēng)行為等。


倫理規(guī)范和要求貫穿《基本要求》和從訓(xùn)練數(shù)據(jù)/語(yǔ)料的來源、生成過程和生成內(nèi)容,到投訴舉報(bào)的全過程,例如,要求生成式人工智能服務(wù)者采取措施防范未成年人沉迷、保護(hù)未成年人身心健康;對(duì)生成物予以標(biāo)識(shí),保持生成式人工智能服務(wù)的透明度;提高語(yǔ)料來源的多樣性,合理搭配不同來源的語(yǔ)料;采取關(guān)鍵詞、語(yǔ)料標(biāo)注、人工抽檢等方式過濾語(yǔ)料中的不良信息等。


《科技倫理審查辦法(試行)》規(guī)定利用個(gè)人信息數(shù)據(jù)的科技活動(dòng),應(yīng)當(dāng)進(jìn)行科技倫理審查;從事人工智能科技活動(dòng)的單位,研究?jī)?nèi)容涉及科技倫理敏感領(lǐng)域的,應(yīng)設(shè)立科技倫理委員會(huì),并將具有輿論社會(huì)動(dòng)員能力和社會(huì)意識(shí)引導(dǎo)能力的算法模型、應(yīng)用程序及系統(tǒng)的研發(fā)活動(dòng),列入“需要開展倫理審查復(fù)核的科技活動(dòng)清單”。因此,生成式人工智能企業(yè)應(yīng)當(dāng)設(shè)立科技倫理委員會(huì),對(duì)生成式人工智能服務(wù)中涉及的利用個(gè)人信息數(shù)據(jù)活動(dòng)進(jìn)行倫理審查,對(duì)其中具有輿論社會(huì)動(dòng)員能力和社會(huì)意識(shí)引導(dǎo)能力的算法模型等還需倫理復(fù)核。


《科技倫理審查辦法(試行)》同時(shí)規(guī)定了對(duì)涉及數(shù)據(jù)和算法的科技活動(dòng)進(jìn)行倫理審查的重點(diǎn)內(nèi)容和標(biāo)準(zhǔn),包括數(shù)據(jù)的收集、存儲(chǔ)、加工、使用等處理活動(dòng)以及研究開發(fā)數(shù)據(jù)新技術(shù)等應(yīng)符合國(guó)家數(shù)據(jù)安全和個(gè)人信息保護(hù)等有關(guān)規(guī)定,數(shù)據(jù)安全風(fēng)險(xiǎn)監(jiān)測(cè)及應(yīng)急處理方案得當(dāng);算法、模型和系統(tǒng)的設(shè)計(jì)、實(shí)現(xiàn)、應(yīng)用等遵守公平、公正、透明、可靠、可控等原則,符合國(guó)家有關(guān)要求,倫理風(fēng)險(xiǎn)評(píng)估審核和應(yīng)急處置方案合理,用戶權(quán)益保護(hù)措施全面得當(dāng)?shù)取?/p>


十一.  數(shù)據(jù)合規(guī)、個(gè)人信息保護(hù)和網(wǎng)絡(luò)信息安全義務(wù)


《暫行辦法》以《網(wǎng)絡(luò)安全法》、《數(shù)據(jù)安全法》、《個(gè)人信息保護(hù)法》為上位法,提供生成式人工智能服務(wù)應(yīng)遵守上述法律關(guān)于數(shù)據(jù)合規(guī)、個(gè)人信息保護(hù)和網(wǎng)絡(luò)信息安全的規(guī)定。


1.    數(shù)據(jù)合規(guī)


根據(jù)《數(shù)據(jù)安全法》第3條的規(guī)定,數(shù)據(jù)處理包括數(shù)據(jù)的收集、存儲(chǔ)、使用、加工、傳輸、提供、公開等。生成式人工智能服務(wù)中訓(xùn)練數(shù)據(jù)/語(yǔ)料的獲取、清洗、標(biāo)注等涉及數(shù)據(jù)的收集、存儲(chǔ)、加工,生成內(nèi)容的過程涉及數(shù)據(jù)的使用、加工等,是典型的數(shù)據(jù)處理活動(dòng),應(yīng)當(dāng)遵守《數(shù)據(jù)安全法》關(guān)于開展數(shù)據(jù)處理活動(dòng)應(yīng)當(dāng)遵守商業(yè)道德和社會(huì)倫理要求,履行數(shù)據(jù)安全保護(hù)義務(wù),不得危害國(guó)家安全、公共利益,不得損害個(gè)人、組織的合法權(quán)益的規(guī)定。


(1)數(shù)據(jù)的收集和交易      


根據(jù)《數(shù)據(jù)安全法》的規(guī)定,生成式人工智能服務(wù)提供者收集訓(xùn)練數(shù)據(jù)/語(yǔ)料時(shí),應(yīng)當(dāng)采取合法、正當(dāng)?shù)姆绞剑坏迷诜伞⑿姓ㄒ?guī)規(guī)定的目的和范圍之外收集、使用數(shù)據(jù),不得竊取或者以其他非法方式獲取數(shù)據(jù);通過交易方式獲取數(shù)據(jù)的,應(yīng)核實(shí)交易對(duì)方的身份,確保數(shù)據(jù)來源合法,并留存交易記錄。提供生成式人工智能服務(wù)應(yīng)遵循的訓(xùn)練數(shù)據(jù)/語(yǔ)料來源安全合規(guī)要求,詳見本文“訓(xùn)練數(shù)據(jù)/語(yǔ)料的來源安全”一節(jié)。


(2)數(shù)據(jù)分類分級(jí)保護(hù)和備案管理


《數(shù)據(jù)安全法》明確規(guī)定“國(guó)家建立數(shù)據(jù)分類分級(jí)保護(hù)制度”,提出“根據(jù)數(shù)據(jù)在經(jīng)濟(jì)社會(huì)發(fā)展中的重要程度,以及一旦遭到篡改、損毀、泄露或者非法獲取、非法使用,對(duì)國(guó)家安全、公共利益或者個(gè)人、組織合法權(quán)益造成的危害程度,對(duì)數(shù)據(jù)實(shí)行分類分級(jí)保護(hù)”。開展數(shù)據(jù)分類分級(jí)保護(hù)工作,首先需要對(duì)數(shù)據(jù)進(jìn)行分類分級(jí),識(shí)別涉及的重要數(shù)據(jù)和核心數(shù)據(jù),然后建立相應(yīng)的數(shù)據(jù)安全保護(hù)措施。


2024年3月21日發(fā)布的國(guó)家標(biāo)準(zhǔn)《數(shù)據(jù)分類分級(jí)規(guī)則》(GB/T 43697-2024)給出了數(shù)據(jù)分類分級(jí)的通用規(guī)則,用于指導(dǎo)各行業(yè)領(lǐng)域、各地區(qū)、各部門和數(shù)據(jù)處理者開展數(shù)據(jù)分類分級(jí)工作。在數(shù)據(jù)分類方面,《規(guī)則》按照行業(yè)領(lǐng)域?qū)?shù)據(jù)分為工業(yè)數(shù)據(jù)、電信數(shù)據(jù)、金融數(shù)據(jù)、能源數(shù)據(jù)、交通運(yùn)輸數(shù)據(jù)、自然資源數(shù)據(jù)、衛(wèi)生健康數(shù)據(jù)、教育數(shù)據(jù)、科學(xué)數(shù)據(jù)等,然后按照不同的業(yè)務(wù)屬性,例如,按照描述對(duì)象將數(shù)據(jù)分為用戶數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、經(jīng)營(yíng)管理數(shù)據(jù)、系統(tǒng)運(yùn)維數(shù)據(jù),按照業(yè)務(wù)流程、產(chǎn)業(yè)鏈環(huán)節(jié)將能源數(shù)據(jù)分為探勘、開采、生產(chǎn)、加工、銷售、使用等數(shù)據(jù),按照數(shù)據(jù)主體分為公共數(shù)據(jù)、組織數(shù)據(jù)、個(gè)人信息。在數(shù)據(jù)分級(jí)方面,《規(guī)則》根據(jù)數(shù)據(jù)在經(jīng)濟(jì)社會(huì)發(fā)展中的重要程度,以及一旦遭到泄露、篡改、損毀或者非法獲取、非法使用、非法共享,對(duì)國(guó)家安全、經(jīng)濟(jì)運(yùn)行、社會(huì)秩序、公共利益、組織權(quán)益、個(gè)人權(quán)益造成的危害程度,將數(shù)據(jù)從高到低分為核心數(shù)據(jù)、重要數(shù)據(jù)、一般數(shù)據(jù)三個(gè)級(jí)別。


生成式人工智能企業(yè)作為數(shù)據(jù)處理者,應(yīng)在遵循國(guó)家和行業(yè)領(lǐng)域數(shù)據(jù)分類分級(jí)要求的基礎(chǔ)上,開展本企業(yè)重要數(shù)據(jù)的識(shí)別與合規(guī)管理工作,實(shí)施數(shù)據(jù)分類、分級(jí),對(duì)公共數(shù)據(jù)、個(gè)人信息等特殊類別數(shù)據(jù)進(jìn)行識(shí)別和分類,確定核心數(shù)據(jù)、重要數(shù)據(jù)和一般數(shù)據(jù)的范圍,形成數(shù)據(jù)分類分級(jí)清單、重要數(shù)據(jù)和核心數(shù)據(jù)目錄,并按有關(guān)程序上報(bào)數(shù)據(jù)目錄。如所屬行業(yè)領(lǐng)域沒有行業(yè)主管部門認(rèn)可的數(shù)據(jù)分類分級(jí)標(biāo)準(zhǔn)規(guī)范,或存在行業(yè)領(lǐng)域規(guī)范未覆蓋的數(shù)據(jù)類型的,則應(yīng)自行按照《數(shù)據(jù)分類分級(jí)規(guī)則》對(duì)數(shù)據(jù)進(jìn)行分類。


根據(jù)《工業(yè)和信息化領(lǐng)域數(shù)據(jù)安全管理辦法(試行)》第12條的規(guī)定,工業(yè)和信息化領(lǐng)域數(shù)據(jù)處理者應(yīng)當(dāng)將本單位重要數(shù)據(jù)和核心數(shù)據(jù)目錄向本地區(qū)行業(yè)監(jiān)管部門備案,備案內(nèi)容包括但不限于數(shù)據(jù)來源、類別、級(jí)別、規(guī)模、載體、處理目的和方式、使用范圍、責(zé)任主體、對(duì)外共享、跨境傳輸、安全保護(hù)措施等基本情況,但不包括數(shù)據(jù)內(nèi)容本身。


(3)數(shù)據(jù)安全


根據(jù)《數(shù)據(jù)安全法》第27、第29條、第30條的規(guī)定,生成式人工智能企業(yè)作為數(shù)據(jù)處理者應(yīng)履行以下數(shù)據(jù)安全保護(hù)義務(wù):


(a)建立健全全流程數(shù)據(jù)安全管理制度,組織開展數(shù)據(jù)安全教育培訓(xùn),采取相應(yīng)的技術(shù)措施和其他必要措施,保障數(shù)據(jù)安全。利用互聯(lián)網(wǎng)等信息網(wǎng)絡(luò)開展數(shù)據(jù)處理活動(dòng),應(yīng)當(dāng)在網(wǎng)絡(luò)安全等級(jí)保護(hù)制度的基礎(chǔ)上履行上述數(shù)據(jù)安全保護(hù)義務(wù)。重要數(shù)據(jù)的處理者應(yīng)當(dāng)明確數(shù)據(jù)安全負(fù)責(zé)人和管理機(jī)構(gòu),落實(shí)數(shù)據(jù)安全保護(hù)責(zé)任。



 (b)加強(qiáng)風(fēng)險(xiǎn)監(jiān)測(cè),發(fā)現(xiàn)數(shù)據(jù)安全缺陷、漏洞等風(fēng)險(xiǎn)時(shí),應(yīng)當(dāng)立即采取補(bǔ)救措施;發(fā)生數(shù)據(jù)安全事件時(shí),應(yīng)當(dāng)立即采取處置措施,按照規(guī)定及時(shí)告知用戶并向有關(guān)主管部門報(bào)告。



(c)重要數(shù)據(jù)的處理者應(yīng)當(dāng)按照規(guī)定對(duì)其數(shù)據(jù)處理活動(dòng)定期開展風(fēng)險(xiǎn)評(píng)估,并向有關(guān)主管部門報(bào)送風(fēng)險(xiǎn)評(píng)估報(bào)告。風(fēng)險(xiǎn)評(píng)估報(bào)告應(yīng)當(dāng)包括處理的重要數(shù)據(jù)的種類、數(shù)量,開展數(shù)據(jù)處理活動(dòng)的情況,面臨的數(shù)據(jù)安全風(fēng)險(xiǎn)及其應(yīng)對(duì)措施等。


(4)數(shù)據(jù)出境


在境外生成式人工智能服務(wù)提供者直接向境內(nèi)公眾提供服務(wù),或者境內(nèi)服務(wù)提供者通過API接口的方式接入境外的技術(shù)服務(wù)提供商向境內(nèi)用戶提供服務(wù),或者向境內(nèi)用戶提供服務(wù)的服務(wù)器部署在境外,以及調(diào)用境外開源模型訓(xùn)練境內(nèi)自有模型(“蒸餾”),或者調(diào)用境外算力在境外開展數(shù)據(jù)訓(xùn)練等情況下,可能發(fā)生數(shù)據(jù)出境的情形。其中,存在數(shù)據(jù)處理者向境外提供重要數(shù)據(jù),或者自當(dāng)年1月1日起累計(jì)向境外提供100萬(wàn)人以上個(gè)人信息(不含敏感個(gè)人信息)或者1萬(wàn)人以上敏感個(gè)人信息等情形的,將觸發(fā)數(shù)據(jù)出境的相關(guān)監(jiān)管,數(shù)據(jù)處理者應(yīng)當(dāng)按照相關(guān)規(guī)定識(shí)別、申報(bào)重要數(shù)據(jù),按照《促進(jìn)和規(guī)范數(shù)據(jù)跨境流動(dòng)規(guī)定》、《數(shù)據(jù)出境安全評(píng)估辦法》、《個(gè)人信息出境標(biāo)準(zhǔn)合同辦法》等規(guī)定履行數(shù)據(jù)出境安全評(píng)估、訂立個(gè)人信息出境標(biāo)準(zhǔn)合同、通過個(gè)人信息保護(hù)認(rèn)證等出境合規(guī)義務(wù)。


2.    個(gè)人信息保護(hù)


《暫行辦法》第9條規(guī)定,生成式人工智能服務(wù)涉及個(gè)人信息的,提供者應(yīng)當(dāng)依法承擔(dān)個(gè)人信息處理者責(zé)任,履行個(gè)人信息保護(hù)義務(wù)。



生成式人工智能服務(wù)在模型訓(xùn)練過程中可能使用包含個(gè)人信息的數(shù)據(jù)集,在與用戶進(jìn)行文本、語(yǔ)音、圖片等的交互時(shí)可能涉及個(gè)人信息的收集與處理。《深度合成管理規(guī)定》第14條第二款特別規(guī)定,深度合成服務(wù)提供者和技術(shù)支持者提供人臉、人聲等生物識(shí)別信息編輯功能的,應(yīng)當(dāng)提示深度合成服務(wù)使用者依法告知被編輯的個(gè)人,并取得其單獨(dú)同意。


參考中國(guó)電子商會(huì)發(fā)布的《生成式人工智能數(shù)據(jù)應(yīng)用合規(guī)指南》(T/CECC 027-2024),生成式人工智能服務(wù)中的個(gè)人信息保護(hù)一般應(yīng)遵循以下要求:


(1)訓(xùn)練數(shù)據(jù)采集中的個(gè)人信息收集


 (a) 在直接收集個(gè)人信息前,應(yīng)依法向個(gè)人明確告知個(gè)人信息處理者的名稱或者姓名和聯(lián)系方式,個(gè)人信息的處理目的、處理方式,處理的個(gè)人信息種類、保存期限,個(gè)人行使法定權(quán)利的方式和程序等;


(b) 如將直接獲取的個(gè)人信息用于模型訓(xùn)練等目的,應(yīng)符合《個(gè)人信息處理中告知和同意的實(shí)施指南》(GB/T 42574-2023)第7~9 章的規(guī)定,告知并取得個(gè)人同意,或者具備其他合法性基礎(chǔ);

(c) 對(duì)于個(gè)人自行公開或者其他已經(jīng)合法公開的個(gè)人信息,如個(gè)人未明確拒絕用于模型訓(xùn)練等目的,處理行為未顯著違背個(gè)人公開目的且相關(guān)處理不會(huì)對(duì)個(gè)人權(quán)益造成重大影響的,可視為在合理范圍內(nèi)進(jìn)行處理;


 (d) 如需采集敏感個(gè)人信息用于模型訓(xùn)練的,應(yīng)事前進(jìn)行個(gè)人信息保護(hù)影響評(píng)估,在采取嚴(yán)格保護(hù)措施并取得個(gè)人單獨(dú)同意的前提下方可使用;


 (e) 如處理不滿十四周歲未成年人個(gè)人信息,除上款內(nèi)容外,還需取得未成年人父母或其他監(jiān)護(hù)人的同意,并制定專門的個(gè)人信息處理規(guī)則;


 (f) 間接獲取的數(shù)據(jù)如包含個(gè)人信息的,應(yīng)要求個(gè)人信息提供方說明個(gè)人信息來源,并確保就信息共享已履行法定的告知義務(wù)并取得個(gè)人單獨(dú)同意,或者具備其他的合法性基礎(chǔ);


(g) 根據(jù)模型訓(xùn)練的特定目的,遵循個(gè)人信息處理的必要性原則,在限于實(shí)現(xiàn)處理目的的最小范圍內(nèi)收集和處理個(gè)人信息;


 (h) 除非確有必要,否則用于模型訓(xùn)練的個(gè)人信息應(yīng)進(jìn)行去標(biāo)識(shí)化處理后再進(jìn)行使用。


但也有學(xué)者認(rèn)為,采用告知同意規(guī)則來通知個(gè)人的模式消耗成本極高且容易被個(gè)人所忽視,所以在大數(shù)據(jù)時(shí)代被認(rèn)為已經(jīng)趨于瓦解且難以恢復(fù),面對(duì)逐漸泛化的個(gè)人信息,人工智能將無(wú)法實(shí)現(xiàn)全面告知。[25]


(2)內(nèi)容生成過程中的使用者信息保護(hù)


提供者對(duì)使用者的個(gè)人信息、輸入信息和使用記錄應(yīng)依法履行如下保護(hù)義務(wù):


(a) 根據(jù)必要性原則,僅收集與提供服務(wù)目的直接相關(guān)的個(gè)人信息;

(b)不得非法留存能夠識(shí)別使用者身份的輸入信息和使用記錄;

(c)不得非法向他人提供使用者的輸入信息和使用記錄,除非獲得使用者同意,或具有其他合法性基礎(chǔ);

(d)未進(jìn)行明確告知并取得使用者同意的,提供者不得擅自將使用者的輸入信息用于后續(xù)模型訓(xùn)練,除非具備其他合法性基礎(chǔ)。


(3)數(shù)據(jù)刪除


因個(gè)人撤回同意等原因?qū)е掠糜谀P陀?xùn)練的個(gè)人信息需進(jìn)行刪除的,提供者應(yīng)從數(shù)據(jù)集中將個(gè)人信息刪除或進(jìn)行匿名化處理,不得再用于模型訓(xùn)練。已投入模型訓(xùn)練的相關(guān)信息如無(wú)法從模型中刪除或刪除成本過大的,可采用屏蔽結(jié)果等方式停止輸出涉及相關(guān)信息的內(nèi)容。提供者也可在數(shù)據(jù)采集時(shí)通過協(xié)議就是否需要?jiǎng)h除模型內(nèi)信息進(jìn)行明確約定。


3. 網(wǎng)絡(luò)信息安全義務(wù)和網(wǎng)絡(luò)信息安全等級(jí)保護(hù)測(cè)評(píng)、備案


(1)網(wǎng)絡(luò)信息安全義務(wù)


《暫行辦法》第9條規(guī)定,生成式人工智能服務(wù)提供者應(yīng)當(dāng)履行網(wǎng)絡(luò)信息安全義務(wù)。根據(jù)《網(wǎng)絡(luò)安全法》的規(guī)定,適用于生成式人工智能企業(yè)的網(wǎng)絡(luò)信息安全義務(wù)主要包括:


(a)對(duì)其收集的用戶信息嚴(yán)格保密,并建立健全用戶信息保護(hù)制度。



(b)收集、使用個(gè)人信息,應(yīng)當(dāng)遵循合法、正當(dāng)、必要的原則,公開收集、使用規(guī)則,明示收集、使用信息的目的、方式和范圍,并經(jīng)被收集者同意。不得收集與其提供的服務(wù)無(wú)關(guān)的個(gè)人信息,不得違反法律法規(guī)的規(guī)定和雙方的約定收集、使用個(gè)人信息,并應(yīng)當(dāng)依照法律法規(guī)的規(guī)定和與用戶的約定,處理其保存的個(gè)人信息。


(c)不得泄露、篡改、毀損其收集的個(gè)人信息;未經(jīng)被收集者同意,不得向他人提供個(gè)人信息。采取技術(shù)措施和其他必要措施,確保其收集的個(gè)人信息安全,防止信息泄露、毀損、丟失。在發(fā)生或者可能發(fā)生個(gè)人信息泄露、毀損、丟失的情況時(shí),應(yīng)當(dāng)立即采取補(bǔ)救措施,及時(shí)告知用戶并向有關(guān)主管部門報(bào)告。


(d)個(gè)人發(fā)現(xiàn)違反法律法規(guī)的規(guī)定或者雙方的約定收集、使用其個(gè)人信息的,有權(quán)要求刪除其個(gè)人信息;發(fā)現(xiàn)收集、存儲(chǔ)的其個(gè)人信息有錯(cuò)誤的,有權(quán)要求予以更正。


(e)任何個(gè)人和組織不得竊取或者以其他非法方式獲取個(gè)人信息,不得非法出售或者非法向他人提供個(gè)人信息。


(2)網(wǎng)絡(luò)安全等級(jí)保護(hù)備案和信息安全等級(jí)保護(hù)測(cè)評(píng)、備案



《網(wǎng)絡(luò)安全法》第21條規(guī)定,國(guó)家實(shí)行網(wǎng)絡(luò)安全等級(jí)保護(hù)制度。生成式人工智能企業(yè)應(yīng)按照《網(wǎng)絡(luò)安全等級(jí)保護(hù)實(shí)施指南》(GB/T 25058-2019)和《網(wǎng)絡(luò)安全等級(jí)保護(hù)定級(jí)指南》(GB/T 22240-2020)的要求,確定其網(wǎng)絡(luò)安全保護(hù)等級(jí),并到公安機(jī)關(guān)辦理備案手續(xù);按照國(guó)家網(wǎng)絡(luò)安全等級(jí)保護(hù)管理規(guī)范和技術(shù)標(biāo)準(zhǔn),進(jìn)行網(wǎng)絡(luò)安全保護(hù)的規(guī)劃設(shè)計(jì);履行使用符合國(guó)家有關(guān)規(guī)定,滿足安全保護(hù)等級(jí)需要的信息技術(shù)產(chǎn)品和網(wǎng)絡(luò)安全產(chǎn)品等義務(wù)。


《信息安全等級(jí)保護(hù)管理辦法》第14、15條規(guī)定,信息系統(tǒng)建設(shè)完成后,運(yùn)營(yíng)、使用單位應(yīng)當(dāng)選擇有資質(zhì)的測(cè)評(píng)機(jī)構(gòu),對(duì)信息系統(tǒng)安全等級(jí)狀況開展等級(jí)測(cè)評(píng),其中,第二級(jí)以上信息系統(tǒng)(指信息系統(tǒng)受到破壞后造成的損害,達(dá)到會(huì)對(duì)公民、法人和其他組織的合法權(quán)益產(chǎn)生嚴(yán)重?fù)p害但不損害國(guó)家安全以上等級(jí)),應(yīng)到所在地設(shè)區(qū)的市級(jí)以上公安機(jī)關(guān)辦理備案手續(xù),涉密信息系統(tǒng)還應(yīng)當(dāng)向保密工作部門提出申請(qǐng),由國(guó)家保密局授權(quán)的系統(tǒng)測(cè)評(píng)機(jī)構(gòu)進(jìn)行安全保密測(cè)評(píng)。


根據(jù)重慶網(wǎng)信部門2024年7月22日通報(bào),“靈象智問AI”、“重慶哨兵拓展迷”等網(wǎng)站未經(jīng)安全測(cè)評(píng)備案、違規(guī)提供生成式人工智能服務(wù),網(wǎng)信部門依法對(duì)運(yùn)營(yíng)主體開展執(zhí)法約談,責(zé)令立即停止相關(guān)服務(wù)。


本篇闡述了有關(guān)數(shù)據(jù)/語(yǔ)料和生成內(nèi)容安全方面的合規(guī)要求,下一篇具體討論生成式人工智能企業(yè)的知識(shí)產(chǎn)權(quán)保護(hù)和與知識(shí)產(chǎn)權(quán)相關(guān)的風(fēng)險(xiǎn)。


(李心路律師對(duì)本文有貢獻(xiàn)。)


注釋

[19] 張濤,《生成式人工智能訓(xùn)練數(shù)據(jù)集的法律風(fēng)險(xiǎn)與包容審慎規(guī)制》,原載《比較法研究》2024年第4期,https://mp.weixin.qq.com/s/BJCwpHaK48g9_M2CLjQ65g

[20] 張濤,《生成式人工智能訓(xùn)練數(shù)據(jù)集的法律風(fēng)險(xiǎn)與包容審慎規(guī)制》,原載《比較法研究》2024年第4期,https://mp.weixin.qq.com/s/BJCwpHaK48g9_M2CLjQ65g

[21] (2024)粵0192民初113號(hào)。

[1] 轉(zhuǎn)引自康驍:《行政法如何應(yīng)對(duì)生成式人工智能——基于算法、訓(xùn)練數(shù)據(jù)和內(nèi)容的考察》,原載《云南社會(huì)科學(xué)》2024年第4期,https://mp.weixin.qq.com/s/FKln_uGIrgFdGzPlWSs5uQ

[22] 目前尚無(wú)國(guó)家標(biāo)準(zhǔn),全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布的《生成式人工智能服務(wù)內(nèi)容標(biāo)識(shí)方法》(TC260-PG-20233A)為行業(yè)標(biāo)準(zhǔn)。

[23] 參見《全球人工智能治理的格局、特征與趨勢(shì)洞察》,張欣、宋雨鑫,原文載 《數(shù)字法治》2024年第1期,https://mp.weixin.qq.com/s/Bo5Ww14nMrwhZnu9EXgj8g

[24] 《生成式人工智能中個(gè)人信息保護(hù)的全流程合規(guī)體系構(gòu)建》,陳禹衡,原文載于《華東政法大學(xué)學(xué)報(bào)》2024年第2期,https://mp.weixin.qq.com/s/eFYUYtW1LD5VfzHXi9d8Ng


欢迎光临: 孝义市| 盈江县| 南华县| 金门县| 兴隆县| 绥德县| 偃师市| 天水市| 阳东县| 永康市| 鄯善县| 缙云县| 麻江县| 巴彦淖尔市| 康保县| 丹巴县| 达州市| 汝阳县| 北碚区| 巢湖市| 平南县| 长白| 大姚县| 二手房| 漳州市| 鲁甸县| 五常市| 红安县| 定结县| 涿鹿县| 固安县| 惠州市| 德钦县| 黎平县| 罗江县| 库车县| 油尖旺区| 颍上县| 海盐县| 高唐县| 惠州市|