ChatGPT法律問題研究及合規指引—數據安全及知識產權篇
作者:全開明 袁葦 謝美山 2023-03-23【摘要】在關于人工智能(AI)發展的激烈爭論中,最近談論最多的當屬ChatGPT。最近,ChatGPT中使用的技術突然迅速地成為日常生活的一部分—當然也包括商業、法律活動。而這場對于人工智能的爭論已經從科學爭論變成了對IT和技術領域有重大影響的具體問題的爭論。在這篇文章中,將研究實際使用ChatGPT和類似系統時需要考慮的主要知識產權問題以及該如何合理規避使用ChatGPT所帶來的風險。
【關鍵詞】ChatGPT 人工智能 知識產權 數據安全 個人隱私 法律風險
一、ChatGPT背景
(一)概念 ChatGPT是一種基于自然語言處理技術的大型語言模型,它是由OpenAI開發的,基于GPT(Generative Pre-trained Transformer)算法,并在此基礎上不斷改進和升級。 GPT是一種無監督的預訓練模型,它使用Transformer神經網絡架構,可以從大規模的語料庫中學習文本的潛在規律,進而生成自然語言的文本。通過在大規模文本語料庫上預訓練,GPT模型可以在各種自然語言處理任務上進行微調和遷移學習,包括機器翻譯、文本摘要、對話生成等。 ChatGPT是在GPT模型的基礎上針對對話生成任務進行微調得到的模型,它可以模擬人類的對話行為,根據用戶輸入的文本生成自然語言回復。在ChatGPT中,文本輸入被轉換為一種叫做“token”的數學表示,然后被輸入到GPT模型中進行計算和處理,最終生成回復文本。ChatGPT還可以通過不斷的迭代優化,提高生成文本的質量和流暢度,以更好地服務于人類的對話需求。[1] (二)應用 ChatGPT及其使用的技術具有巨大的潛力,可以成為商業中用來執行(或至少作為執行的主要輔助手段)過去只有人類能夠完成的任務(并被認為是人類創造力的領域)的一種工具。2023年3月15日微軟發布GPT-4 Office全家桶,不管是Word、PPT、Excel,還是Outlook、Teams、Microsoft Viva、Power Platform,所有這些辦公軟件,通通都會得到GPT-4的加持。[2]這是增強版的模型,其使用更大的數據量和更多的初始參數進行訓練。這將意味著ChatGPT有更多的實際用途,越來越多的人將在工作中使用或通過基于GPT-3的商業工具(使用提供的API)間接使用ChatGPT。 基于此,人們自然會問,除了個人目的外,ChatGPT和基于ChatGPT的工具是否可以在商業、法律行為中使用,這是否安全和合法,以及這可能涉及什么樣的風險。 下面本文將對解決上述問題的基本法律問題進行研究分析。
二、ChatGPT可能面臨的法律風險
(一)數據 對于ChatGPT生成任何類型的內容,首先必須向它提出適當的問題。從這個角度來看,根據輸入數據的類型,有兩種情況可以使用該工具。 在第一種情況下,旨在生成全新內容的具體命令不包括受保護或受特殊法律約束的數據,例如,告訴系統生成一篇關于一般主題的簡短文章的命令。 在第二種情況下,需要特定的數據、內容或文本輸入,以修改、擴展或糾正數據和內容,或產生響應,而輸入的數據可能包括受保護或受特別法律約束的數據,例如個人數據。根據所提供信息的范圍,ChatGPT的兩種使用方式對用戶來說涉及不同的風險。 1.數據的輸入 當用戶向ChatGPT輸入任何類型的數據時,他們提供的數據將被工具提供者——美國公司OpenAI L.L.C.[3]使用。 根據美國公司OpenAI L.L.C.服務條款[4]和使用條款[5],供應商被授權使用用戶提供的數據,并將其用于維護、開發和升級其技術。這不僅適用于輸入數據,即用戶輸入ChatGPT以獲得摘要和刪節版的內容,而且也適用于輸出數據,即生成的內容。 誠然,OpenAI的服務條款規定,數據的處理并非完全沒有限制,而且供應商使用戶能夠撤回對處理的同意(至少某些用戶可以這樣做)。然而,任何輸入ChatGPT的數據都是提供給供應商使用和處理的,而供應商的總部在美國,處理的范圍沒有具體說明。此外,根據服務條款,ChatGPT供應商沒有對用戶作出任何不泄露輸入數據的具體承諾。 由于上述原因,當用戶向ChatGPT輸入構成商業秘密或機密的數據時,供應商可能將這些數據透露給第三方,用于不確定的目的,明確允許他們以這種方式使用這些數據。此外,從公開發布的信息中可以看出,ChatGPT的提供者確實有技術能力為機器學習的目的獲取經過處理的信息,無論是通過自動方式還是手動方式。 因此,如果用戶向ChatGPT輸入包括商業戰略細節的數據,那么同時也存在這樣的風險,即該文件會被提供者獲得,且也可能會被提供給其他用戶,或被用來制作可供競爭的戰略。同樣,如果一個企業輸入了與客戶或商業對手有關的機密信息,那么提供者一方和提供者的附屬機構可能會有無限多的人查看。 這意味著,為商業目的使用ChatGPT分析輸入的機密信息可能構成對受法律保護的數據(商業機密或根據特定法律以其他方式享有特權的信息,如醫療或銀行機密)的破壞,從而違反合同義務或法律。 這意味著需要對ChatGPT在業務中的使用進行適當的監督,包括起草相關的法律和指導方針,說明用戶是否可以使用該工具以及在何種程度上使用。 2. 個人數據泄漏 關于個人數據處理的法律問題是不同的。根據OpenAI產品和服務的隱私政策,當用戶使用所提供的工具(包括ChatGPT)時,供應商會獲得用戶信息,即個人數據、通信信息、登錄細節、有關使用的信息、分析和cookies。這些信息可用于多種用途,包括提供、維護、升級和分析所提供的產品和服務,進行測試,以及開發新產品和服務。此外,這些數據可以披露給各種類型的第三方,并轉移到美國在美國進行處理。 (二)知識產權法律問題 人工智能領域一個最主要的法律問題——知識產權問題,也同樣適用于ChatGPT。在這方面出現了三個主要的法律問題: 在系統“學習”時是否可能侵犯第三方知識產權? 生成內容的地位以及如何保護? 誰擁有使用生成內容的權利? 1.機器學習和著作權保護 機器學習問題是棘手的問題,具體的法律措施在該領域已被采取,特別是針對人工智能系統供應商的訴訟。訓練有關系統需要系統地分析和處理大量的數據,包括構成著作權法保護的作品的數據。爭論的焦點是“學習”系統的經營者是否有權利用公共領域的數據庫。關于這類系統的運營商的主要反對意見是在于這些系統以自動方式非法獲取和處理大量的可用數據,然后用來制作內容。提出索賠的各方認為這種行為侵犯了原作者或其他權利人的權利。 世界各國和歐盟的立法者已經意識到了這個問題,歐盟解決這個問題的監管框架的要素在主要規制在《DSM指令》中[6]。根據DSM指令,國家立法機構需要通過法律,使第三方能夠為機器學習的目的復制版權法意義上的數據庫或作品。這適用于學術和商業用途,而權利人可以拒絕商業用途。一些歐盟國家已經通過了相應的法律。 在中國法律中關于人工智能侵犯知識產權的條文主要包括以下幾個方面,《中華人民共和國著作權法》第四十七條規定[7]:任何單位和個人不得侵犯他人的著作權。人工智能通過學習、模仿等方式產生的作品,其著作權歸屬于人工智能的開發者,但人工智能創作的作品仍需符合著作權法的規定、《中華人民共和國專利法》第六十二條規定[8]:制造、銷售、使用侵犯專利權的產品或者提供侵犯專利權的方法,均屬于侵犯專利權的行為。人工智能所產生的發明、實用新型或外觀設計等,同樣需要遵守專利法的規定、《中華人民共和國商標法》第九十八條規定[9]:未經授權,任何單位和個人不得使用他人已經注冊的商標。人工智能不能作為商標申請人,但人工智能開發者可以申請商標注冊,并享有商標權利、《中華人民共和國反不正當競爭法》[10]第八條規定:經營者不得實施與本法禁止的不正當競爭行為,損害其他經營者的商業信譽或者侵害其他經營者的合法權益。人工智能不能作為經營者,但人工智能開發者以及使用人都應該遵守反不正當競爭法的規定。在開發和應用的過程中,監管的措施和手段都是有力且不斷進步的,比如《新一代人工智能倫理規范》[11]中規范了人工智能應當為人類帶來福祉的基本要求;《關于規范和加強人工智能司法應用的意見》[12]也從司法層面提出了規范人工智能對審判的作用。 顯然,從法律角度來看,考慮到使用ChatGPT和類似工具的實際情況,這個問題對作者和這類系統的提供者至關重要。以往的人工智能大多承接體力勞動或提供信息索引和單句對話服務,“應用算法、規則和模板的結果,不能體現創作者獨特的個性”。[13] 2.人工智能生成物是否屬于“作品” 另一個對ChatGPT和類似系統的用戶有許多實際影響的問題是其生成內容的定位。這個問題的出發點是,這些內容是否構成受著作權保護的作品。正如前文所提,以往的機器學習并不能體現其“個性”, 因此,生成法定“作品”的可能性低。但是,ChatGPT具有信息編排和一定的自主創作能力,例如,依據某位武俠小說作家文風創作新小說,“使得程序算法和獨立思考的界限進一步模糊”[14]。在大多數法律體系中,要被視為著作權意義上的著作權作品,其基本標準之一是它必須是人類創造的產物,受《著作權法》保護的一個基本前提是其保護人類創造的產品。 這導致即使ChatGPT生成的特定內容具有與人類作者創作的內容相同的特征,它也不構成著作權法意義上的作品,因為其作品沒有達到人類創造性產出的法律要求。這種做法意味著著作權保護不適用,因此允許自由復制、改編和商業使用這類內容。 有關ChatGPT所創作的作品是否為受著作權法律保護的作品,也有另一種觀點,認為ChatGPT和類似系統產生的內容可以被視為現行著作權法下的版權作品,因為最終創造者是人。而在這種觀點下,作者被確定為特定系統的操作者(或構建和“培訓”系統的一方),或者最終用戶,因為最終用戶定義了生成內容的標準,從而在內容的創造中發揮了基本的創造性作用。 關于ChatGPT和類似系統產生的內容的地位的眾多法律問題還包括,如果這些內容被認為構成作品,那么如何界定這些內容與有關系統(如ChatGPT)的“學習”中使用的作品之間的關系。極端的觀點是,使用人工智能生成的內容必須被認為是相關的作品,或者在該系統進行“學習”所依據的作品有相當的關系的該機構。根據這一概念,使用有關系統產生的內容將需要,例如,原作者的許可。在實踐中,這意味著要履行必要的手續并向他們支付適當的費用。這也會給ChatGPT的終端用戶帶來嚴重的后果,因為在他們的商業活動中使用人工智能產生的內容可能會侵犯原作作者的權利,并引發直接責任,盡管系統供應商也有責任。 在本作者看來,這是一個有缺陷的觀點,由于不了解ChatGPT和類似工具操作的“技術”性質以及圍繞其使用的法律的高度不確定性。目前的著作權法框架是基于人工智能還不存在的時候制定的規則。所以有必要對像作品特征這樣的基本法律要素進行進一步補充規定。為此,ChatGPT用戶需要密切關注正在進行的爭論,因為使用生成的內容在某一點上可能被證明是對第三方權利的侵犯。 3. 如果屬于受著作權保護的作品其歸屬問題 如果ChatGPT生成的內容可能是版權法意義上的版權作品(只要它符合法律規定的其他標準),那么問題是誰擁有該作品的權利。 現行法律并沒有提供一個明確的答案。在法律允許的范圍內,根據OpenAI的服務條款,OpenAI將所提供的工具(包括ChatGPT)所產生的內容的所有權利轉移給用戶。OpenAI向用戶轉讓其對輸出的所有權利和利益。同時,用戶規定OpenAI可以在必要時使用內容以提供和維護服務,遵守適用法律,并執行其政策。此外,用戶有責任確保生成的內容不違反法律或OpenAI的服務條款。這些規則還明確指出,生成的內容不一定具有唯一性,多個用戶可能獲得相同或非常相似的內容。此外,服務條款沒有明確對生成內容的使用目的(如商業用途)做出任何限制。 當ChatGPT被問及這個問題時,它回答說,所有生成內容的權利都屬于供應商(OpenAI),而且這些內容不得用于商業目的。然而ChatGPT中使用的數據只到2021年(在某些特殊情況下到2022年),因此,起點必須是目前適用的使用條件。 然而,在我們看來,以這種方式為OpenAI的服務條款大大減少了最終用戶將內容用于商業目的所產生的風險,因為提供者給予用戶使用內容的廣泛許可。 從商業角度來看,這是一個完全可以理解的方法。提供者表示,其首要目標是將開發的技術商業化,而不是從使用生成的作品中獲得經濟利益。顯然,為了實現這一目標,必須盡可能地允許最終用戶從使用ChatGPT和其他工具生成的內容中獲益。 如果發現生成的作品侵犯了第三方權利(例如用于“訓練”該系統的作品的作者),即使與ChatGPT供應商簽訂的協議中規定的有利規則也無法提供足夠的保護。因此,在使用這些內容時,尤其是在未經修改的情況下發布的內容,建議始終保持謹慎。 (三)人工智能也會犯錯 最后,ChatGPT生成的內容不會總是正確和真實的,OpenAI在其通信和服務條款中特別說明了這一點,從而也說明其責任被盡可能地排除。 簡而言之,ChatGPT生成的內容可能包含缺陷,并損害用戶的利益。終端用戶使用該系統的風險由他們自己承擔,并對自己負責,不可能向供應商提出任何索賠。
三、安全使用ChatGPT的合規建議
顯然,目前關于人工智能系統的法律方面的爭論,問題多于答案。一方面,是這類工具產生的內容是否受法律保護,以及基于什么理由。另一方面,該如何妥善應對ChatGPT所帶來的法律風險。 (一)國家應加強監管、完善基本立法 加強監管力度。隨著人工智能產品不斷升級迭代,對其監管應該貫穿整個生命周期。以類似ChatGPT的人工智能產品為例,監管范圍應涵蓋從建立模型、標注語料庫、進行模型訓練,到市場投放和系統退出使用的整個過程。每個環節都需要接受嚴格的監管。關于數據包括的監管可能包括個人數據、構成商業秘密的數據或機密、特權通信的內容以及任何不得向第三方披露的數據的監管,該類數據都不應該被輸入類ChatGPT工具。 完善類ChatGPT相關立法,應規定何時可以使用ChatGPT和類工具,以及使用生成的內容的后果(例如對第三方權利侵犯的保護)。應引入有關使用這類工具的適當通知義務。進一步完善2022年出臺的《互聯網信息服務算法推薦管理規定》、2023年1月10日起施行的《互聯網信息服務深度合成管理規定》。盡快完善立法規定將有助于降低監管成本,規避風險。 (二)企業應遵守法律、強化內部治理 在使用ChatGPT等類似人工智能工具時,企業必須遵守相關的法律法規,特別是保護商業秘密和著作權的法律規定。企業應該謹慎選擇輸入的信息,并對可能涉及商業秘密的內容進行謹慎處理,以確保上述應用行為遵守法律法規。由于ChatGPT輸出的內容是由其訓練的語料庫和用戶提問方式綜合確定的,因此企業應該采取可行的措施,如避免限制聊天請求、排除特定對象等措施,以避免或限制獲取來自特定作品的趨于精確、狹義的輸出內容,從而避免侵犯著作權法律風險。企業還應當向員工公開傳達保密義務,并通過公告等方式定期提醒公司員工的保密義務。明確應保密的具體對象,以避免商業秘密泄露風險。 此外,企業應及時更新管理制度,并對未能遵循管理制度的員工進行教育和懲戒,以完善公司的商業秘密保護體系。這些措施將有助于確保企業遵守法律法規,保護商業秘密和著作權。同時,企業應該制定使用人工智能工具的一般政策,并在組織內進行推廣和培訓。這些政策應考慮到與人員或供應商使用人工智能有關的所有問題,特別是在創造性工作是活動核心要素的組織中,例如創意或新技術部門的公司,或軟件制造商。這些政策將有助于提高企業人員和用戶的風險意識,并確保組織內處理的數據的安全性和保密性。 (三)個人應審慎使用、做好自我保護 對于一般的個人用戶來說,提高識別信息真實性和合法性的能力非常重要。在注冊賬戶時,務必仔細閱讀平臺使用協議,仔細甄別類ChatGPT人工智能系統輸出的信息,保護好個人隱私防止信息泄露。如果個人用戶發現信息處理者違反法律法規或協議約定,可以根據《個人信息保護法》第四十七條和第四十八條規定[15],要求信息處理者刪除個人信息,并要求信息處理者對其個人信息使用規則進行解釋說明。 希望通過一系列的法律規避措施,在未來使用ChatGPT會更加安全,屆時人工智能很可能會像今天的互聯網一樣普遍存在。 本文撰寫趙紫邑有重要貢獻
注釋: [1] ChatGPT官方 [2] 新智元 [3] OpenAI(開放人工智能)是美國一個人工智能研究實驗室,由營利組織 OpenAI LP 與母公司非營利組織 OpenAI Inc 所組成,目的是促進和發展友好的人工智能,使人類整體受益。OpenAI成立于2015年底,總部位于加利福尼亞州舊金山,組織目標是通過與其他機構和研究者的“自由合作”,向公眾開放專利和研究成果。創始人山姆·柯曼以及伊隆·馬斯克的動機是出于對強人工智能潛在風險的擔憂。Tech giants pledge $1bn for ‘altruistic AI’ venture, OpenAI. BBC News,訪問于2023年3月17日。 [4] https://openai.com/api/policies/service-terms/ [5] https://openai.com/terms/ [6] Directive (EU) 2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market and amending Directives 96/9/EC and 2001/29/EC (OJ L. of 2019, 130, p. 92). [7] 《中華人民共和國著作權法》 [8] 《中華人民共和國專利法》 [9] 《中華人民共和國商標法》 [10] 《中華人民共和國反不正當競爭法》 [11] 中國國家新一代人工智能治理專業委員會于2021年9月25日發布《新一代人工智能倫理規范》,旨在將倫理道德融入人工智能全生命周期,為從事人工智能相關活動的自然人、法人和其他相關機構等提供倫理指引。同時,增強全社會的人工智能倫理意識與行為自覺,積極引導負責任的人工智能研發與應用活動,促進人工智能健康發展。 [12] 最高人民法院,法發〔2022〕33號。 [13] 王遷:《論人工智能生成的內容在著作權法中的定性》,《法律科學》,2017年第5期。 [14] 熊琦:《人工智能生成內容的著作權認定》,《知識產權》,2017年第3期。 [15] 《個人信息保護法》第四十七條規定:有下列情形之一的,個人信息處理者應當主動刪除個人信息;個人信息處理者未刪除的,個人有權請求刪除:(一)處理目的已實現、無法實現或者為實現處理目的不再必要;(二)個人信息處理者停止提供產品或者服務,或者保存期限已屆滿;(三)個人撤回同意;(四)個人信息處理者違反法律、行政法規或者違反約定處理個人信息;(五)法律、行政法規規定的其他情形。法律、行政法規規定的保存期限未屆滿,或者刪除個人信息從技術上難以實現的,個人信息處理者應當停止除存儲和采取必要的安全保護措施之外的處理。第四十八條規定個人有權要求個人信息處理者對其個人信息處理規則進行解釋說明。






