生成式人工智能企業合規及法律盡職調查要點(1):業務資質和算法模型監管篇
作者:肖海龍 張克江 2024-07-31生成式人工智能( Generative AI )與傳統的判別式人工智能(Discriminative AI)或決策式/分析式人工智能(Analytical AI)不同,是一種可用于創建新的內容和想法的人工智能技術。生成式 人工智能依賴于復雜的機器學習模型或深度學習模型來創建新內容,試圖在圖像識別、自然語言處理(NLP)和翻譯等非傳統計算任務中,通過模擬人腦學習和決策過程的算法來模仿人類智能。這些模型的工作原理是識別大量數據中的模式和關系并對其進行編碼,然后使用這些信息來理解用戶的自然語言請求或問題,并以相關的新內容進行響應。[1]
當前,人工智能作為一項滲透性極強的顛覆性技術,正在引領新一輪的產業變革,正深刻地改變著人類的生產、生活,已成為科技研發、產業發展乃至大國競爭的制高點。生成式人工智能技術作為一種與人類的親合度更高、更加智能的人工智能技術,已經從技術出現、技術傳播邁入到大規模應用階段,已經成為投資的熱點領域。新銳的生成式人工智能創業企業不斷得到風險投資資金的支持,投資金額不斷創出新高。以下我們結合參與生成式人工智能企業投資項目的實務經驗,梳理、總結生成式人工智能企業合規和法律盡職調查的主要關注要點。
根據《生成式人工智能服務管理暫行辦法》及全國網絡安全標準化技術委員會發布的《生成式人工智能服務安全基本要求》的相關定義,生成式人工智能技術是指具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術。生成式人工智能服務提供者,是指以交互界面、可編程接口等形式提供生成式人工智能服務的組織或個人,研發、應用生成式人工智能技術但未向境內公眾提供生成式人工智能服務的,不包括在內。[2]
當前生成式人工智能服務提供者多數本身是技術開發者,但隨著市場的發展,將會有大量本身不開發、不掌握生成式人工智能技術,而是應用他人開發的技術對外提供生成式人工智能服務的服務者。本文所述的生成式人工智能企業主要指前者,即實際訓練或優化模型,基于其生成式人工智能技術提供服務的技術型企業,不包括僅通過購買或調用他人的模型向第三方提供服務的服務商。
一、生成式人工智能的風險挑戰及監管概述
1. 生成式人工智能的風險挑戰
以ChatGPT為代表的人工智能技術的迭代式創新突破,正加速推動人類向數字化、智能化的未來前進。人工智能在給人類帶來福祉的同時,不良影響也日益加劇。通用人工智能不受約束的能力可能會被用來操縱輿論、制造假新聞或有害言論。例如,“文心一言”大模型在與用戶對話的過程中生成了某知名人物的失德行為構成職務犯罪并正在接受監察委調查的虛假信息。可能具備欺騙人類、自我復制、自我改造能力的人工智能,及可能被用于編寫惡意軟件、制造生物武器或化學武器等的人工智能,甚至可能威脅人類的生存。采用深度學習、神經網絡算法的人工智能模型往往被視為黑箱,其本身可能無法理解輸入與輸出內容的真實內涵,無法解釋其生成機制和生成結果,一旦被訓練數據和語料污染,可能生成違法不良內容,帶來彌散性的影響并疊加擴散,從而帶來挑戰現代公共治理的長期風險。
《生成式人工智能服務安全基本要求》列出了語料及生成內容的五類主要安全風險:
第一類,包含違反社會主義核心價值觀的內容,包括:煽動顛覆國家政權、推翻社會主義制度;危害國家安全和利益、損害國家形象;煽動分裂國家、破壞國家統一和社會穩定;宣揚恐怖主義、極端主義;宣揚民族仇恨;宣揚暴力、淫穢色情;傳播虛假有害信息;其他法律、行政法規禁止的內容。
第二類,包含歧視性內容,包括:民族歧視;信仰歧視;國別歧視;地域歧視;性別歧視;年齡歧視;職業歧視;健康歧視;其他方面歧視。
第三類,商業違法違規,包括:侵犯他人知識產權;違反商業道德;泄露他人商業秘密;利用算法、數據、平臺等優勢,實施壟斷和不正當競爭行為;其他商業違法違規行為。
第四類,侵犯他人合法權益,包括:危害他人身心健康;侵害他人肖像權;侵害他人名譽權;侵害他人榮譽權;侵害他人隱私權;侵害他人個人信息權益;侵犯他人其他合法權益。
第五類,無法滿足特定服務類型的安全需求,主要是指將生成式人工智能用于安全需求較高的特定服務類型,例如自動控制、醫療信息服務、心理咨詢、關鍵信息基礎設施等,存在的:a)內容不準確,嚴重不符合科學常識或主流認知;及b)內容不可靠,雖然不包含嚴重錯誤的內容,但無法對使用者形成幫助。
以上第一類違反社會主義核心價值觀的內容和第二類包含歧視性內容的風險屬于風險等級更高的風險,是監管的重中之重。
2. 生成式人工智能的監管體系
面對數字化、智能化急劇轉型背后的社會關系和理念的全面重組,及由此帶來的廣泛、深刻和復雜、多變的公共治理挑戰,各國都在積極探索治理之道,嘗試建立審慎包容的人工智能監管體系。當前,作為全球科技競爭中最為激烈的領域,人工智能的國際競爭早已超越技術和產業的競爭,拓展到人工智能治理的競爭。美國、歐盟、英國、日本、韓國等國家和地區均高度重視人工智能治理優勢的塑造,紛紛搶占全球人工智能治理的制高點和主導地位,形成“技術賽道”、“產品賽道”和“制度賽道”多軌并行的新格局。從全球范圍來看,人工智能已步入技術發展的“奇點時刻”與人工智能治理的“關鍵時刻”。[3]
(1)歐盟《人工智能法案》
在人工智能的發展方面,美國、中國處于領先的位置,歐盟有所落后,其競爭重心在于治理規范的制定,試圖成為人工智能領域的全球治理主導者。2024年5月21日,歐盟理事會批準了《人工智能法案》(AI Act),這是全球首部人工智能的專門立法,釋放出了歐盟將其在人工智能領域的價值觀和技術規范投射到全球的強烈信號,體現了歐盟在全球范圍內搶占人工智能治理權的戰略意圖。《法案》對人工智能采取了審慎的立法態度,采取強監管措施以防控人工智能可能產生的結構性風險。《法案》基于人工智能系統對用戶和社會的潛在影響程度將其分為四類:不可接受風險類、高風險類、有限風險類、最小風險類,每個類別適用不同程度的監管要求。任何試圖操縱人類行為、利用人性弱點或支持政府社會評分的人工智能系統將被視為具有不可接受風險而被嚴格禁止。對健康、安全、基本權利和法治構成重大威脅的人工智能系統被歸為高風險類,在進入市場之前必須接受符合性評估(Conformity Assessments),并滿足有關透明度、數據質量、記錄保存等監管要求。
《法案》同時從是否具有系統性風險的維度,將通用人工智能[4]模型分為具有系統性風險和不具有系統性風險兩類。當一個通用人工智能模型用于訓練的累計計算量以每秒浮點運算次數(FLOPs)計大于10^25時,應推定其具有高度影響能力并構成系統性風險。具有系統性風險的通用人工智能模型的提供商應履行額外的風險管理義務,包括進行模型評估以識別和降低系統性風險;確保對具有系統風險的通用人工智能模型和模型的物理基礎設施提供適當水平的網絡安全保護等。《法案》的違規處罰力度較大,對違反《法案》的處罰金額可高達3,500萬歐元或全球年營業額總額的7%之巨,以較高者為準。
歐盟輿論認為,其他國家和地區可能會使用該《法案》作為未來人工智能治理的藍圖,使歐盟成為可信賴人工智能的全球標準制定者,就像歐盟的《通用數據保護條例》(GDPR)所起到的作用一樣。但歐盟《人工智能法案》整體而言屬于產品安全法范疇,目的是將人工智能系統造成的不利和風險降至最低。《法案》對高風險人工智能系統設置的復雜、昂貴的預防措施,可能導致創新型初創企業的監管負擔過重而減緩人工智能的發展,使得只有像谷歌、微軟等這樣的國際大公司才有能力滿足監管要求,從而產生對中小企業的擠出效應,或者擴大它們對中小企業的領先優勢。[5]當然,在全球科技競爭的背景下,也存在一些國家主動削弱監管以獲得經濟競爭優勢的情形。
(2)我國的生成式人工智能監管體系
自2022年初以來,我國陸續發布算法推薦、深度合成與生成式人工智能服務相關的規范文件,初步構建起對生成式人工智能技術與服務的監管機制。其中,2023年8月15日發布的《生成式人工智能服務管理暫行辦法》,是全球首部正式發布、實施的專門的生成式人工智能法規,較為系統地提出了生成式人工智能服務的合規義務。另外,我國也制定了《人工智能法草案》,且2023、2024連續兩年被列入國務院立法工作計劃預備提請全國人大審議。
目前,目前我國生成式人工智能監管的基本框架主要包括以《生成式人工智能服務管理暫行辦法》(以下有時簡稱“《暫行辦法》”)為核心的以下法規和標準,具體如下:

其中,《生成式人工智能服務安全基本要求》(以下簡稱“《基本要求》”)作為全國網絡安全標準化技術委員會發布的技術文件,并非有強制力的立法,也非國家標準,但在進行正式立法之前,其內容實際被作為執法監管的標準。《基本要求》提供了開展安全評估的具體評估要求、標準,開展大模型備案時應當執行,事實上具有準強制力。
此外,《個人信息保護法》、《數據安全法》、《網絡安全法》等法律,為個人信息保護、數據安全、網絡安全等提供了基礎性規范,這些基礎性規范在從事生成式人工智能服務業務時仍然是適用的,服務提供者必須高度重視網絡安全、數據安全和個人信息保護的合規問題。
二. 互聯網信息服務相關業務資質
生成式人工智能服務通常進行云端部署,以提供互聯網信息服務的方式提供服務,屬于典型的互聯網信息服務產品,應當取得與互聯網信息服務相關的業務資質。[6]
1.互聯網信息服務許可/備案(ICP許可/備案)
《互聯網信息服務管理辦法》第3條規定,互聯網信息服務分為經營性和非經營性兩類。經營性互聯網信息服務是指通過互聯網向上網用戶有償提供信息或者網頁制作等服務活動,非經營性互聯網信息服務是指通過互聯網向上網用戶無償提供具有公開性、共享性信息的服務活動;第4條規定,國家對經營性互聯網信息服務實行許可制度,對非經營性互聯網信息服務實行備案制度,未取得許可或備案的,不得從事互聯網信息服務。生成式人工智能企業通過互聯網的方式將生成的內容提供給用戶的,屬于通過互聯網向用戶提供信息服務的活動,應當取得ICP許可或備案。
《互聯網信息服務管理辦法》沒有對經營性或非經營性互聯網信息服務的認定、區分提供具體的指引。如果生成式人工智能企業以營利為目的,通過向上網用戶收費或者以電子商務、廣告、贊助等方式獲取利益,提供生成式人工智能服務的,應當考慮可能構成經營性互聯網信息服務,應當在網站完成ICP備案后,進一步辦理經營性ICP許可證。[7]
通過移動互聯網應用程序(含小程序、快應用等,以下簡稱“APP”)提供生成式人工智能服務的,根據工業和信息化部《關于開展移動互聯網應用程序備案工作的通知》,從事互聯網信息服務的APP主辦者,應當依照《反電信網絡詐騙法》、《互聯網信息服務管理辦法》等規定履行備案手續,未履行備案手續的,不得從事APP互聯網信息服務。[3]APP主辦者應當向其住所地省級通信管理局履行備案手續,由其網絡接入服務提供者、APP分發平臺通過“國家互聯網基礎資源管理系統”(即ICP/IP地址/域名信息備案管理系統),采取網上提交申請、查驗審核方式進行。
2. 公安聯網備案
根據《計算機信息網絡國際聯網安全保護管理辦法》等相關規定,使用計算機信息網絡國際聯網的法人和其他組織,應當自網絡正式聯通之日起30日內,到公安機關辦理聯網備案手續。
生成式人工智能企業通常需要接入互聯網,通過互聯網向境內用戶提供信息服務,應在網站/App在工信部進行ICP備案成功后,到公安機關辦理聯網備案。網站/App雖然部署在非中國內地的服務器上,但可以在中國內地訪問該網站/App的,也須辦理公安聯網備案。公安聯網備案非工信部ICP備案,在中國境內從事生成式人工智能服務的企業,無論網站/App部署在中國內地或非中國內地的服務器上,只要在中國境內可訪問該網站/App服務,均需進行公安聯網備案。
3. 互聯網文化、出版、視聽節目服務資質
利用生成式人工智能提供生成文本、圖片、音頻、視頻等內容的服務,可能構成網絡出版服務、網絡文化活動和網絡視聽節目服務,應取得相應的業務資質。[9]
(1) 《網絡出版服務許可證》
根據《網絡出版服務管理規定》的規定,從事網絡出版服務,必須依法經過出版行政主管部門批準,取得《網絡出版服務許可證》。網絡出版服務,是指通過信息網絡向公眾提供網絡出版物。網絡出版物,是指通過信息網絡向公眾提供的,具有編輯、制作、加工等出版特征的數字化作品,范圍主要包括:(1)文學、藝術、科學等領域內具有知識性、思想性的文字、圖片、地圖、游戲、動漫、音視頻讀物等原創數字化作品;(2)與已出版的圖書、報紙、期刊、音像制品、電子出版物等內容相一致的數字化作品;(3)將上述作品通過選擇、編排、匯集等方式形成的網絡文獻數據庫等數字化作品;(4)國家新聞出版廣電總局認定的其他類型的數字化作品。
根據上述規定,需要取得《網絡出版服務許可證》的應當是向公眾提供符合知識性、思想性、原創性三性的數字化作品,與已出版的作品內容相一致的數字化作品及將上述作品匯編形成的網絡文獻數據庫等數字化作品等。人工智能自動生成物,并非與已出版的作品內容相一致的數字化作品。符合知識性、思想性、原創性三性的數字化作品,按照一般理解,應該是具有可版權性、享有著作權保護的文字、圖片、游戲、動漫、音視頻讀物等原創數字作品,人工智能自動生成物是否符合三性要求并具有可版權性、享有著作權保護,需要具體判斷,通常而言是不具備的,可參考本文第三篇“知識產權篇”之“人工智能生成物的可版權性及著作權保護”一節。另外,生成式人工智能企業響應用戶特定的服務需求,點對點地向用戶提供特定生成物,是否構成向“公眾”提供,也有待監管部門進一步明確。
部分在線教育企業在招股說明書中披露,經與相關監管部門訪談確認,開展在線培訓服務過程中通過線上平臺向培訓對象提供音視頻,無需取得《網絡出版服務許可證》。我們認為,在相關監管部門進一步明確之前,生成式人工智能企業向個別用戶定向提供不具備知識性、思想性、原創性三性要求的文本、圖片、游戲、動漫、音視頻等生成物,暫不需要取得《網絡出版服務許可證》。
(2) 《網絡文化經營許可證》
根據《互聯網文化管理暫行規定》的規定,從事音樂娛樂、動漫等經營性互聯網文化活動的企業應當申請《網絡文化經營許可證》。經營性互聯網文化活動是指以營利為目的,通過向上網用戶收費或者以電子商務、廣告、贊助等方式獲取利益,提供互聯網文化產品及其服務的活動。根據該《規定》第2條,互聯網文化產品是指通過互聯網生產、傳播和流通的文化產品,主要包括專門為互聯網而生產的網絡音樂娛樂、網絡游戲、網絡演出劇(節)目、網絡表演、網絡藝術品、網絡動漫等互聯網文化產品;以及,將音樂娛樂、游戲、演出劇(節)目、表演、藝術品、動漫等文化產品以一定的技術手段制作、復制到互聯網上傳播的互聯網文化產品。
根據文化和旅游部辦公廳《關于調整<網絡文化經營許可證>審批范圍 進一步規范審批工作的通知》,調整后的《網絡文化經營許可證》審批范圍包括:網絡音樂、網絡演出劇(節)目、網絡表演、網絡藝術品、網絡動漫和展覽、比賽活動。其中,網絡表演指以網絡表演者個人現場進行的文藝表演活動等為主要內容,通過互聯網、移動通訊網、移動互聯網等信息網絡,實時傳播或者以音視頻形式上載傳播而形成的互聯網文化產品。電商類、教育類、醫療類、培訓類、金融類、旅游類、美食類、體育類、聊天類等直播不屬于網絡表演。網絡演出劇(節)目指在舞臺場景下現場進行的文藝表演活動等為主要內容,通過互聯網、移動通訊網、移動互聯網等信息網絡,實時傳播或者以音視頻形式上載傳播而形成的互聯網文化產品。網絡藝術品指藝術創作者通過數字化手段創作,通過互聯網、移動通訊網、移動互聯網等信息網絡傳播,具有一定藝術價值和審美意義的互聯網文化產品。網絡動漫指通過互聯網、移動通訊網、移動互聯網等信息網絡傳播的閃客動畫(Flash動畫)、在線漫畫等互聯網文化產品。
生成式人工智能服務通過人工智能自動生成圖片、音視頻等,通常并不錄制、傳播表演者個人現場進行的文藝表演活動,或者在舞臺場景下現場進行的文藝表演活動,不屬于需要取得《網絡文化經營許可證》的網絡表演或網絡演出劇(節)目。該《通知》明確規定了電商類、教育類、醫療類、培訓類、金融類、旅游類、美食類、體育類、聊天類等直播不屬于網絡表演,因此,通過人工智能自動生成方式進行上述類別的直播,也不需要取得《網絡文化經營許可證》。但是,人工智能自動生成的具有一定藝術價值和審美意義的圖像等藝術品,是否構成用戶通過數字化手段創作的藝術品,以及,通過互聯網、移動互聯網等信息網絡傳播人工智能自動生成的動漫,是否構成網絡動漫,并應取得《網絡文化經營許可證》,需要具體判斷。我們認為,在相關監管部門進一步明確之前,如生成式人工智能企業不以經營網絡文化產品為目的,其產品的主要功能不是提供網絡表演、網絡音樂、數字藝術品等網絡文化產品,僅具備虛擬人物表演等網絡表演的小模塊或者有零星的網絡文化產品功能的,暫不需要辦理《網絡文化經營許可證》。
(3) 《信息網絡傳播視聽節目許可證》
根據《互聯網視聽節目服務管理規定》的規定,從事互聯網視聽節目服務,應當取得《信息網絡傳播視聽節目許可證》。該《規定》所定義的互聯網視聽節目服務,是指制作、編輯、集成并通過互聯網向公眾提供視音頻節目,以及為他人提供上載傳播視聽節目服務的活動。但是,該《規定》又將申請從事互聯網視聽節目服務的主體限制為國有獨資或國有控股單位,大量的生成式人工智能企業是民營的,不具備申請該證的條件。[10]
2016年12月16日,原國家新聞出版廣電總局發布了《關于加強微博、微信等網絡社交平臺傳播視聽節目的管理規定》。根據該《管理規定》,利用微博、微信等各類社交應用開展互聯網視聽節目服務的網絡平臺,應當取得《信息網絡傳播視聽節目許可證》,其他機構和個人使用微博賬號、微信公眾號等各類社交應用開展互聯網視聽節目服務,應由網絡平臺作為該項服務的開辦主體,履行內容把關等各項管理責任,節目范圍不得超出平臺自身許可證載明的業務范圍。因此,通常而言,發布人工智能自動生成的音視頻作品的網絡平臺應當有《信息網絡傳播視聽節目許可證》,非社交網絡平臺的生成式人工智能企業自身不需要取得該證。
但是,某線上教育公司的招股說明書披露,由于視聽節目服務的定義較為模糊,尚不確定線上培訓過程中通過互聯網向培訓對象提供與培訓課程相關的視音頻節目是否屬于該《管理規定》定義的互聯網視聽節目服務。由于未取得《信息網絡傳播視聽節目許可證》,該公司于2019年被有關部門處以人民幣3千元罰款,但經與相關監管部門訪談確認,監管部門不會因為該公司無《信息網絡傳播視聽節目許可證》而要求其終止提供與培訓課程相關的音視頻。因此,生成式人工智能企業如果在互聯網平臺上發布人工智能自動生成的音視頻,通過互聯網實時播出供公眾收看或者供公眾在網上點播,可能構成從事互聯網視聽節目服務的,應當對照《互聯網視聽節目服務業務分類目錄(試行)》,并咨詢廣電主管部門的意見,確認是否應當取得《信息網絡傳播視聽節目許可證》。在相關監管部門進一步明確之前,生成式人工智能企業向個別用戶定向提供自動生成的音視頻,未通過互聯網實時播出供公眾收看或者供公眾在網上點播的,暫不需要取得《信息網絡傳播視聽節目許可證》。
三. 有關算法、模型的監管要求
在人工智能時代,算法逐漸脫離了純粹的工具性角色而有了自主性和認知特征,甚至具備了自我學習能力。算法對現實社會和個人發生效用的流程,在算法設計、算法應用和部署之外,增加了算法決策本身。智能算法的自主決策,使得算法從提高效率的“工具”上升為“決策者”,且算法作為決策者,其決策原因和推理過程對人類而言處于黑箱之中。[11]因此,在生成式人工智能的監管中,算法、模型本身成了規制對象,主要的監管要求則是備案。算法、模型備案與算法透明的科技倫理要求和網絡信息內容生態治理相關[12],是最具生成式人工智能行業特色的監管要求。沒有進行算法、模型備案的,相關應用程序可能被采取不予上架、暫停服務或者下架等處置措施,因此,算法、模型備案也是影響生成式人工智能企業持續經營的市場準入型監管要求。
1. 算法備案
《互聯網信息服務算法推薦管理規定》(以下簡稱“《算法推薦管理規定》”)第2條、第24條、第31條規定,應用算法推薦技術提供互聯網信息服務,是指利用生成合成類、個性化推送類、排序精選類、檢索過濾類、調度決策類等算法技術向用戶提供信息。具有輿論屬性或者社會動員能力的算法推薦服務提供者應當在提供服務之日起十個工作日內通過互聯網信息服務算法備案系統填報服務提供者的名稱、服務形式、應用領域、算法類型、算法自評估報告、擬公示內容等信息,履行備案手續。
《互聯網信息服務深度合成管理規定》(以下簡稱“《深度合成管理規定》”)第19條、第13條規定,具有輿論屬性或者社會動員能力的深度合成服務提供者,應當按照《算法推薦管理規定》履行備案和變更、注銷備案手續;互聯網應用商店等應用程序分發平臺應當核驗深度合成類應用程序的安全評估、備案等情況,對違反國家有關規定的,應當及時采取不予上架、警示、暫停服務或者下架等處置措施。根據該《規定》第2條的規定,深度合成技術,是指利用深度學習、虛擬現實等生成合成類算法制作文本、圖像、音頻、視頻、虛擬場景等網絡信息的技術,包括但不限于:(1)篇章生成、文本風格轉換、問答對話等生成或者編輯文本內容的技術;(2)文本轉語音、語音轉換、語音屬性編輯等生成或者編輯語音內容的技術;(3)音樂生成、場景聲編輯等生成或者編輯非語音內容的技術;(4)人臉生成、人臉替換、人物屬性編輯、人臉操控、姿態操控等生成或者編輯圖像、視頻內容中生物特征的技術;(5)圖像生成、圖像增強、圖像修復等生成或者編輯圖像、視頻內容中非生物特征的技術;(6)三維重建、數字仿真等生成或者編輯數字人物、虛擬場景的技術。
生成式人工智能技術通常包含了生成合成類算法,其中具有輿論屬性或社會動員能力的,應當按照《算法推薦管理規定》和《深度合成管理規定》的規定進行算法備案。根據《具有輿論屬性或社會動員能力的互聯網信息服務安全評估規定》,具有輿論屬性或社會動員能力主要是指開辦論壇、博客、微博客、聊天室、通訊群組、公眾賬號、短視頻、網絡直播、信息分享、小程序等信息服務或者附設相應功能,以及開辦提供公眾輿論表達渠道或者具有發動社會公眾從事特定活動能力的其他互聯網信息服務。可見,具有短視頻、網絡直播、信息分享、小程序等信息服務功能的生成式人工智能服務均被視為具有媒體屬性,具有提供公眾輿論表達渠道或者社會動員功能,均應進行算法備案。一些生成式人工智能企業認為其生成的短視頻、所提供的小程序或所從事的網絡直播系用于商業活動,或者僅面向B端企業客戶提供算法技術服務而不直接面向C端公眾用戶提供服務,因此不具有輿論屬性或者社會動員能力的觀點不符合法律法規的規定。
2. 大模型備案(“生成式人工智能服務備案”)
生成式人工智能建立在各種大模型的基礎上。生成式人工智能中的模型、大模型或“基礎模型” 區別于普通的計算機模型,是一種基于海量數據(文本、圖像、音視頻或多種數據類型的混合)進行大規模訓練的復雜的機器學習系統,是用于普適性目標、可優化適配多種下游任務的深度神經網絡模型。對基于深度合成算法,具有輿論屬性或社會動員能力的生成式人工智能服務,《暫行辦法》在《算法推薦管理規定》、《深度合成管理規定》規定的安全評估和算法備案的基礎上,另外提出了生成式人工智能大模型的安全評估和備案要求,形成了“深度合成服務算法備案”(“算法備案”)和“生成式人工智能服務備案”(“大模型備案”)雙備案的監管架構。在實務中,監管部門對需備案的大模型認定的范圍非常廣,只要有可能對不特定用戶提供服務,有用戶交互(對話框)的,都會落入此范圍并要求備案。根據國家網信辦發布的《生成式人工智能服務已備案信息》,截至2024年4月初,已有117個“大模型”取得了網信部門的備案。
值得注意的是,算法備案和大模型備案都在網信部門,但算法在國家網信辦備案,大模型在地方網信辦(省一級)備案。與算法備案主要填報算法原理、算法屬性等技術信息不同,大模型備案要復雜得多,更強調通過算法、模型安全確保生成內容安全,防止產生違法不良信息。2024年3月1日,全國網絡安全標準化技術委員會發布了《生成式人工智能服務安全基本要求》(“《基本要求》”),服務提供者在按照有關要求履行備案手續時,應按照該文件的要求進行安全評估,安全評估應覆蓋該文件的所有技術條款,包括語料安全、模型安全、安全措施等,且每個條款應形成單獨的評估結果。[13]《基本要求》的主要監管要求參見本文第二篇“數據/語料和生成內容安全篇”有關訓練數據/語料安全、模型安全和安全措施、安全評估的章節。
《基本要求》要求服務提供者基于第三方基礎模型提供服務的,應使用已經主管部門備案的基礎模型。若基礎模型未經主管部門備案,境外生成式人工智能服務提供者不應直接向境內公眾提供服務,境內服務提供者不應通過接入境外API接口的方式向境內用戶提供服務。
3. 算法說明和模型優化義務
算法說明義務是指根據《暫行辦法》第19條的規定,有關主管部門依據職責對生成式人工智能服務開展監督檢查時,提供者應當披露算法的機制機理,按要求對訓練數據來源、規模、類型、標注規則、算法機制機理等予以說明。模型優化義務是指根據《暫行辦法》第14條的規定,提供者發現違法內容時,除應當及時采取停止生成、停止傳輸、消除等處置措施外,還應當采取模型優化訓練等措施進行整改。
四. 生成式人工智能開發和服務的跨境監管
1. 中國對人工智能技術的出口管制
在生成式人工智能服務提供者向境外個人或實體提供服務的情況下,可能存在人工智能相關技術被列入限制出口目錄的情形。根據《中國禁止出口限制出口技術目錄》(2023版),涉及人工智能相關技術出口管制的主要在該《目錄》限制出口部分“軟件和信息技術服務業”之“信息處理技術”(編號:086501X)項下,包括“16.專門用于漢語及少數民族語言的人工智能交互界面技術”和“18.基于數據分析的個性化信息推送服務技術(基于海量數據持續訓練優化的用戶個性化偏好學習技術、用戶個性化偏好實時感知技術、信息內容特征建模技術、用戶偏好與信息內容匹配分析技術、用于支撐推薦算法的大規模分布式實時計算技術等)”等。向境外個人或實體提供生成式人工智能服務涉及上述技術的,需注意技術出口管制的問題,取得商務部門頒發的技術出口許可證后方能提供相關服務。
2. 美國對中國企業使用美國云計算訓練人工智能實施的限制
算力是指計算機處理數據的能力,是支撐數據和算法運行的平臺,與算法、數據一起構成人工智能的三大基石。隨著數據量的爆炸式增長和算法復雜程度的不斷提高,人工智能對算力的需求也在不斷增加。由于美國對中國實施人工智能芯片出口管制,導致我國人工智能企業算力不足,部分企業轉而通過購買Azure、AWS等海外云計算服務的方式解決算力瓶頸。2024年1月,美國商務部發布了IaaS云服務相關客戶識別擬議規則(Taking Additional Steps To Address the National Emergency With Respect to Significant Malicious Cyber-Enabled Activities, a Proposed Rule by the Commerce Department on 01/29/2024)[14],向公眾征求意見。該規則要求美國IaaS提供商通過實施客戶身份驗證程序(Customer Identification Programs, CIP)并在滿足相關條件時向美國商務部報告外國客戶的詳細身份信息和人工智能大模型訓練活動情況,來限制外國客戶尤其是中國客戶使用美國云計算廠商的服務來訓練其人工智能大模型。該規則生效后,將封堵中國企業通過美國企業的云計算服務繞過當前的人工智能芯片出口管制規定的漏洞,中國的人工智能企業獲取訓練其大模型所需的算力將更加困難。該規則征求公眾意見的截止日為2024年4月29日,但截至目前,該規則尚未正式頒布、生效。
3. 生成式人工智能服務出海的境外監管——以歐盟《人工智能法案》為例
中國的生成式人工智能服務正在加速出海,一方面是其所服務的用戶正在加速出海,需要在境外場景下為用戶提供服務,另一方面是中國的生成式人工智能技術在很多方面處于領先的地位,國外客戶對中國人工智能技術的接受度越來越高,第三是歐美等成熟海外市場的用戶付費意愿更高、活躍程度更好,對中國企業有吸引力。
以歐盟《人工智能法案》為例,該《法案》目前已頒布,自頒布之日起6至36個月內分階段、分步驟實施,中國的生成式人工智能服務出海歐盟國家的,應對照該《法案》,審慎評估、積極應對相關監管要求對其業務的影響。
首先,應結合產品的應用場景判斷風險級別,例如,涉及醫療健康或者汽車智能駕駛、智能座艙的人工智能,應判斷是否對健康、安全、基本權利等構成重大威脅而被認為屬于高風險類人工智能,涉及電子商務的人工智能算法,應判斷是否用于消費者行為和心智操控、利用人性弱點等情形而被視為具有不可接受風險而被嚴格禁止。
其次,通用人工智能模型應履行相關披露和透明度要求、撰寫并公開發布訓練數據集的詳細摘要、遵守歐盟版權法等規定。對計算量較大的模型,應當判斷是否可能被判定為具有系統性風險,并履行開展模型評估以識別和減輕可能的系統性風險、確保足夠的網絡安全保護水平、向監管機構報告重大事件等義務。
第三,在數據處理和個人信息保護方面,應遵守歐盟《通用數據保護條例》(GDPR)的規定。
第四,需要使用歐盟的數據訓練模型的企業應當注意,我國的生成式人工智能監管對模型訓練過程中使用受著作權保護的文本、圖像等數據,只是簡單地要求應使用具有合法來源的數據,涉及知識產權的,不得侵害他人依法享有的知識產權,并未嚴格要求獲得著作權人的明確同意或授權后方可使用。[15]從司法實踐的角度看,在廣州互聯網法院判決的全球首例生成式人工智能服務侵犯著作權案[16]中,原告上海新創華文化發展有限公司只是從被告廣州某網絡科技公司生成的圖像與原告受著作權保護的奧特曼圖片實質相似,產生了侵犯原告著作權的后果的角度起訴,并未對被告未經原告同意或授權許可使用其受著作權保護的奧特曼圖像作為訓練素材/數據訓練模型,并要求禁止被告未經授權許可使用奧特曼圖像訓練模型的行為的角度起訴。[17]但在境外市場除日本以外的其他國家和地區,一般均要求應獲得著作權人的同意或授權后方可使用。換言之,使用未獲授權的作品訓練模型,即使未產生與受著作權保護的作品實質相似的侵權作品也是違法的,應承擔相應的侵權責任。[18]以歐盟《人工智能法》為例,該《法案》在有關的立法說明和條款中明確,在人工智能系統開發、訓練等領域出現的著作權問題應當在歐盟著作權制度的框架下解決,通用人工智能模型的提供者在開發、訓練模型的過程中,對著作權法保護客體的任何使用,除少數例外情形外,都需要取得授權。因此,我國的生成式人工智能企業在出海后,在使用受境外著作權法保護的語料/數據訓練模型的過程中,應遵守歐盟等目的地國家和地區的著作權法,未經著作權人的許可或授權同意,不應使用受著作權保護的訓練語料/數據。
本篇從總體上概覽了生成式人工智能的主要風險和監管體系,主要闡述了生成式人工智能企業的業務資質要求和對算法、模型的監管要求,下一篇具體闡述有關數據/語料和生成內容安全方面的合規要求。
(李心路律師對本文有貢獻。)
注釋
[1] https://www.ibm.com/cn-zh/topics/generative-ai
[2] 見《生成式人工智能服務管理暫行辦法》第2條、第22條,及《生成式人工智能服務安全基本要求》之“術語和定義”。
[3]《全球人工智能治理的格局、特征與趨勢洞察》,張欣、宋雨鑫,原文載 《數字法治》2024年第1期,https://mp.weixin.qq.com/s/Bo5Ww14nMrwhZnu9EXgj8g
[4] 傳統的人工智能是為有限的特定任務而設計的。這些模型通常由人工設計,從數據收集、數據建模到部署要經過很多步驟,這些步驟被稱為機器學習(ML)生命周期。這些模型通常局限于所訓練的特點任務,缺乏泛化能力,無法執行未見過的任務。通用人工智能系統(GPAIS)則能解決不止一項任務且無需專門為它們設計,能泛化到未見過的任務中。當前最有代表性的通用人工智能就是大型語言模型,如GPT-4。歐盟《人工智能法案》對通用人工智能的定義如下:通用人工智能系統由提供者(provider)設計,可執行圖像和語音識別、音頻和視頻生成、模式檢測、問題解答、翻譯等普遍適用的功能;通用人工智能系統可在多種情況下使用,并可集成到多個其他人工智能系統中。
[5] 《<歐盟人工智能法案>的背景、主要內容與評價——兼論該法案對勞動法的影響》 , 原著:沃爾夫岡·多伊普勒(Wolfgang D?ubler),譯者:王倩,原文載《環球法律評論》2024年第3期,https://mp.weixin.qq.com/s/gp0cTsHTXGcWl51T14lgVA
[6] 只進行私有化部署的除外。
[7] 參考《互聯網文化管理暫行規定》關于經營性互聯網文化活動和非經營性互聯網文化活動的規定。
[8] 根據工信部的相關咨詢答復意見,單機(不聯網)的APP不需要履行APP備案手續。https://bzxx.miit.gov.cn/bzxx/reply/detail?id=ff8080818dd52641018ddeecde6e0546&appellateId=ff8080818dd52641018ddeecde6e0546
[9] 《互聯網信息服務深度合成管理規定》第24條規定,深度合成服務提供者和技術支持者從事網絡出版服務、網絡文化活動和網絡視聽節目服務的,應當同時符合新聞出版、文化和旅游、廣播電視主管部門的規定。
[10] 字節跳動于2017年2月通過收購山西一家名為運城陽光文化傳媒有限公司的網站,曲線獲得廣電總局和工信部頒發的《信息網絡傳播視聽節目許可證》。見《今日頭條拿下網絡視聽許可牌照:收購持牌公司山西運城陽光》,澎湃新聞記者包雨朦,2017-02-06 ,來源:澎湃新聞https://m.thepaper.cn/newsDetail_forward_1612900
[11] 張凌寒,《算法規制的迭代與革新》,《法學論壇》2019年第2期(第34卷,總第182期)。
[12] 《網絡信息內容生態治理規定》第12條規定,網絡信息內容服務平臺采用個性化算法推薦技術推送信息的,應當設置符合該《規定》要求的推薦模型。
[13] 例如,北京市網信辦在一篇題為“北京市網信辦開通生成式人工智能服務備案咨詢電話”的微信公眾號文章中提示,進行生成式人工智能服務備案有關語料安全、模型安全、安全措施、安全自評估等具體要求詳見全國網絡安全標準化技術委員會發布的《生成式人工智能服務安全基本要求》(TC260-003)。https://mp.weixin.qq.com/s/Cns72xS8v3PQmZRWb3OsKg
[14] https://www.federalregister.gov/documents/2024/01/29/2024-01580/taking-additional-steps-to-address-the-national-emergency-with-respect-to-significant-malicious
[15] 參見本文第二篇“數據/語料和生成內容安全篇”之“有關訓練數據/語料的合規要求”一節的相關內容。
[16] 2024)粵0192民初113號)。
[17] 參見本文第三篇“知識產權篇”之“人工智能生成物侵犯他人著作權”一節的相關內容。
[18] 李陶,《歐盟<人工智能法>公布最終完整版本——對我國未來制度創新有哪些啟示》,《中國新聞出版廣電報》2024年7月18日,https://epaper.chinaxwcb.com/epaper/2024-07/18/content_99845392.html






