GPT模型生成物能享有著作權嗎?運用「全知能」概念進行分析
作者:劉民選 楊高翔 丁如歌 2023-03-26ChatGPT無疑是2022年底至今,人們生活當中最火熱的話題之一。其突出的理解能力、淵博的知識儲備和流暢的自然語言表達折服了眾多人類用戶。關于GPT模型的技術、政策、倫理、法律分析文章已經數不勝數,而在本文中,筆者就ChatGPT的回答(GPT模型生成物)的著作權問題提出一種全新的分析路徑——運用「全知能」概念進行分析。
一、GPT是什么?我們為什么要關注它的生成物?
(一)GPT模型及其應用簡介 為方便讀者,筆者對GPT模型進行簡要介紹。GPT模型,即Generative Pre-trained Transformer(生成式預訓練轉換器),是美國OpenAI公司推出的一種自回歸語言模型。其屬于人工智能一重要分支,即自然語言處理(Natural Language Processing, NLP)下的一種具體實現方案。GPT模型和其他技術方案不同的NLP模型都致力于讓計算機能夠理解、解析和生成人類語言。近年來,ChatGPT和InstructGPT等基于GPT模型的產品已具有相當的實用性,被試驗性地用于聊天娛樂、內容搜索、文章撰寫、代碼生成等領域。 (二)GPT模型生成物帶來的著作權爭議 GPT模型生成物來源于GPT模型,GPT模型的語料則來源于海量的互聯網語料庫。具體而言,在超高算力的支持下,GPT模型通過“攝入”海量語料庫進行預訓練,并被人類標注員糾正,使其具備自然、流暢且包含著基本正確信息的語言生成能力。然而,隨著其在公眾視野中的廣泛應用,關于GPT模型及其生成物的侵權風險、法律地位和權利歸屬問題也引起了廣泛關注。 要回答這三個問題,都繞不開對GPT模型及其生成物的法律定義。有不少人認為,因為我們已經難以從人類創作的文字及圖像作品中區分GPT模型生成物,且難以從GPT模型生成物中找到其對應的訓練材料,因此GPT模型的生成物有相當的“創造性”,是著作權客體,且GPT模型本身也應當被認為是著作權權利人;同時也有相當多學者考慮到,GPT模型生成物其實完全由人類提供的語料庫轉化而成,且自身也是人類的創造物,因此不僅現在的GPT模型生成物不應該被授予著作權,以后出現的其他NLP模型和人工智能技術的生成物也不應當被著作權法保護。筆者同意后者的觀點,但提出一種全新的分析路徑。 (三)筆者的分析路徑 與目前的學術界和實務界已經比較完善的“人類的立法保護人類的權利,但GPT模型不是人,因此它的生成物不應受到人類立法的保護”的三段論式目的性分析路徑不同,筆者認為若要說明GPT模型生成物不是著作權客體,還可以從GPT模型的自身特性、創作過程及知識產權系列法律的規定中入手論證。即,GPT模型生成物不是著作權客體并不僅僅因為“作者”GPT模型不是自然人,更是因為GPT模型“學習”的過程與人不同,創作的方式也并非“從無到有”,不具備含有《著作權法》中“獨創性”和《專利法》“創造性”之內涵的創造能力。 為能進行這樣的論證,筆者需要使用一具體概念輔助推理過程。因此,本文的分析將從為GPT模型及其類似物找尋合適的虛構概念入手。在精準定義概念后,筆者將結合現行中國《著作權法》中的概念對GPT模型生成物在著作權法中的地位進行分析。除此之外,筆者還將討論“不適宜為GPT模型生成物賦予著作權”的其他考量因素,以及對著作權法保護客體的再思考。當然,法律與現實的關系永遠是“應然”與“實然”間的你追我趕;筆者既希望能深入GPT模型這一新事物的實質提出一種具體的法律分析路徑,也希望能在新浪潮中向業界同仁拋磚引玉,引得百花齊放。歡迎業界同仁不吝批評指正、共同交流進步。
二、移植《專利法》概念對GPT模型進行限定 (一)《專利法》中“所述領域的技術人員”之概念 筆者首先介紹《專利法》中“所述領域的技術人員”之概念。在2021年版《專利審查指南》中,“所述領域的技術人員”被定義為“一種假設的‘人’,假定他知曉申請日或者優先權日之前發明所屬技術領域所有的普通技術知識,能夠獲知該領域中所有的現有技術,并且具有應用該日期之前常規實驗手段的能力,但他不具有創造能力。如果所要解決的技術問題能夠促使本領域的技術人員在其他技術領域尋找技術手段,他也應具有從該其他技術領域中獲知該申請日或優先權日之前的相關現有技術、普通技術知識和常規實驗手段的能力”。 可見,“所述領域的技術人員”是《專利法》中一個抽象且虛構的概念,主要用于為發明創造性的評價過程提供穩定的標準,但其“全知、會基本的組合卻完全不會創造”的特性使筆者靈光乍現:為何不借用此概念對GPT模型的特征進行假設性描述? (二)為GPT模型重塑“所述領域技術人員”之概念 為將“所屬領域技術人員”之概念套用于GPT模型上,筆者對該概念進行了重塑。首先,由于GPT模型的語料庫就是GPT模型的所屬領域,我們可以認為其熟知語料庫內所有知識,能夠查閱和理解所有語料庫內文獻的能力,也掌握并能應用該語料庫之內包括的組合和分析方法。其次,目前還未有GPT模型產生人類情感和自由意志的證據,我們可以認為GPT模型本質上是無法從無到有進行創造的機器,其輸出的內容在語料庫中必有某種形式的源頭。最后,考慮到最新的ChatGPT產品中提供給GPT模型的語料庫已經覆蓋2021年之前的幾乎所有互聯網上的內容,我們可以認為GPT模型有著能熟知互聯網上所有內容、知識、文獻、方法的能力。 出于上述的原因,筆者提議,對GPT模型應當選用比“所屬領域技術人員”更恰當的描述。這一描述不僅應當反映GPT模型的特性,還必須能反映出大眾對GPT強悍實力的認可和敬佩。因此,筆者提議命名其為「全知能」。「全知能」與“全智能”雖僅有一字之差,但其體現出的恰巧是GPT模型與你我他這樣的自然人最大的區別:GPT模型知曉其語料庫內的所有信息和知識,但自然人的知識儲備總是有明顯局限;自然人可以靈光乍現后創造出令所有同類大呼“前所未見”的新表達,而GPT模型只有經過訓練和用戶輸入的提示,才能對外輸出它的生成物。 (三)GPT模型不具有任何意義上的創造能力 在深入討論GPT模型與「全知能」概念之間的關系前,筆者認為需要明確一點:GPT模型不具有任何意義上的創造能力,包括專利法意義上的創造性和著作權法意義上的獨創性。專利法中的創造性要求一個發明在技術上相對現有技術具有顯著進步,而著作權法的獨創性則要求作品表現出作者獨特的創作思維。然而,GPT模型基于其訓練數據生成內容,不能產生超出已有數據范圍的全新創意或獨特觀點。 GPT模型與創造性的關系 盡管GPT模型能夠在短時間內生成大量內容,但這些內容僅僅是現有數據的重新組合。這種組合雖然可能在某種程度上看起來新穎,但它們無法達到專利法所要求的創造性標準。即使GPT模型在某些情況下能夠生成看似獨特的解決方案,但這些解決方案仍然是基于已有的知識和數據,而非全新的技術創新。 GPT模型與獨創性的關系 著作權法保護的是作品的獨創性,即作品必須表現出作者獨特的創作思維。然而,GPT模型是一個基于數據驅動的算法,其生成的作品并不反映任何一個特定作者的獨特思維。相反,GPT模型生成的作品是由大量現有作品的碎片拼湊而成,因此不具備獨創性。 (四)「全知能」概念的意義 您可能會好奇,為何筆者要創造「全知能」這一概念對GPT模型進行概括性描述?首先,盡管「全知能」的假設或許在未來的某一天會被打破,但該概念目前能夠在技術上較好地概括和描述GPT模型的特性:正如「全知能」三個字中沒有出現“人”,“GPT模型不是人”的實質因此得到凸顯;“全知”代表了GPT模型“熟知”的知識總量遠超任何人類一生所能企及的總量且它具有超快的篩選和分析能力;“能”則表示GPT模型能夠用多種人類能夠直接理解的形式(包括但不僅限于文字、圖像)對其重新組合后的有用信息進行呈現。「全知能」因此是對GPT模型特性的精準總結。 在此之外,「全知能」這一概念在實踐中也大有用處。其能夠提供一種便于推理和論證的、隔離具體技術實現方式和技術細節變化的、能夠減少理解困難的、概念外延清晰的虛構概念,極大地方便了我們對GPT模型及其生成物進行法律分析。正因為如此,筆者才能與對這一分析路徑感興趣的通融進行高效的溝通交流;司法實踐中對技術概念不了解的人員也能快速掌握GPT模型的精髓;「全知能」的概念還能允許我們在人工智能的風口浪尖上對包括著作權在內的各大知識產權領域進行一些從零到一的思考。筆者希望能用「全知能」的概念向大家闡述筆者的思路,同時也希望能啟發各位讀者一起集思廣益。
三、對GPT模型生成物的著作權分析 (一)現行《著作權法》中“獨創性”的概念 在《著作權法》領域中,“獨創性”的概念對判斷某一作品應否受到《著作權法》保護而言至關重要。然而,這一“獨創性”概念本身的定義卻并不清晰:有的學者認為“獨創性”一方面要求作者“獨立”完成作品,另一方面要求作品是作者“創造性”智力勞動的結果;有的學者又認為,“獨創作品”只需要排除作者剽竊、抄襲得來的作品。在“創造性”有與無和高與低的問題上,一些學者認為“創造性”問題只需討論有無,不必討論高低;也有一些學者認為具備“獨創性”的作品所表現的思想、觀念、情感等要能夠使人產生獨特的認知和感受。 在各異的觀點中求同存異后,“獨創性”的最小概念可被歸納為:獨立創作的作品當中至少需要包含一絲創作者“創造性”智力勞動的成果。在如此確定“獨創性”的最小概念后,就可以對「全知能」生成物與人類作品進行“獨創性”比較。 (二)比較GPT模型生成物和人類作品的“創作過程” 人類的表達并非都是著作權法意義上的作品,原因就在于人類有相當一部分的表達都不具備“獨創性”。舉例而言,人類社會中的禮貌用語和交互的指令等都直接源于意識對表達方式的調用,并不包括創造的部分。人類在回答問題時,通常也會檢索腦海中、互聯網上和書本中現有的事實性知識,在總結后發表“自己的回答”。雖然在部分前沿問題當中,“自己的回答”可能包括答題人創造性的思考結果,人類對大部分問題的回答卻幾乎只是“事實”+“傾向性”的組合,并沒有運用創造能力,不包括“創造性”的內容。 「全知能」能夠取得成功的原因也恰在此處?!溉堋沟拇懋a品ChatGPT在理解用戶的問題后,就能運用經過海量數據訓練的GPT模型調取出用戶需要的事實性知識,并將大量的碎片化的事實性知識通過自然語言處理能力重新轉化成人類能直接理解的自然語句。在該過程中,「全知能」就像一個知識極其淵博的“人”,能夠在毫秒間向用戶提供整合好的回答語句,并根據訓練內容附上人類最親切的“我覺得……更好”的感想。全知如此的一句評論,雖然能讓用戶體驗顯著提升,卻也正是誤導人類對「全知能」及其“作品”進行正確評估的“罪魁禍首”。若能拋開這種“「全知能」很像人”的濾鏡,就能看到「全知能」非人的真面目。 (三)「全知能」生成物不具有獨創性,不是著作權客體 「全知能」的生成物只是「全知能」從海量數據庫中采集多個要素后按人類習慣重新組合要素后的表達,其不包括“從無到有”的創造過程,不具有“獨創性”,自然不是著作權客體。一方面,「全知能」組合知識和信息要素的過程,本就是在海量語料庫中進行檢索的過程,難言“獨立”,更不用說“從零開始”;另一方面,「全知能」提供的信息本就全部存在于語料庫當中,并不因其被復雜地重新組合過,就能談得上是“創造”。 當然,筆者也預期讀者可能對筆者結論持有反對意見,包括:人類如果能提供和「全知能」生成物同樣水準的回答的反饋,一定會被認為有“獨創性”,為何不認為「全知能」生成物有“獨創性”?作者(也就是筆者)用這個概念論證「全知能」沒有創造能力,是不是意味著匯編作品等著作權客體,因實際上也只是組合的結果,因此也不應享有著作權?作者是不是對技術進步太過輕視且對自己的假設太過自信?對于最后一個質疑,筆者希望重新明確:「全知能」的虛構概念只是為方便邊界清晰、概念明確地進行法律分析,并非意圖用一個虛構概念改變現實世界。對于前兩個問題,筆者將在下文繼續討論。
四、不應以著作權保護GPT模型生成物的其他考量 (一)避免「全知能」生成物的語料的著作權糾紛 在大多數情況下,「全知能」在與用戶一對一的“交流溝通”中,將不可避免地引用受《著作權法》保護的語料。使用人或開發者可主張「全知能」在向用戶回答問題時,應被視為正在“介紹、評論某一作品或者說明某一問題,在作品中適當引用他人已經發表的作品”的“一般通用人員”;其回答是“一般通用人員”的“淵博知識”的集中體現(盡管實際上則是「全知能」從海量數據中選擇而來),可主張“合理使用”,因此無須經過著作權人許可,不向著作權人支付報酬,也就不會產生開發者、使用人和語料著作權人之間錯綜復雜的著作權糾紛。 從反面看,若把「全知能」生成物認定為《著作權法》上的作品,著作權許可和侵權糾紛將如影隨形。試舉一例,如果將「全知能」的生成物認為是享有著作權的匯編作品,就需要「全知能」生成物的作者(不必然是「全知能」,下文將討論)取得享有著作權的語料的著作權人的許可。然而,考慮到互聯網語料庫中包括海量的作者、保護期限、適用法律各不相同的著作權客體,這樣的許可從數量上來說幾乎是不可能取得的。 在這樣的背景下,當自然人發表「全知能」生成物時,可能會面臨一系列著作權糾紛風險和問題。由于「全知能」生成物是基于大量訓練數據生成的,其中可能包含受著作權保護的作品。自然人在發表這些生成物時,可能會涉及對原始著作權人權益的侵犯。例如,「全知能」可能在生成物中引用受保護的文學作品、圖片或音樂等。在這種情況下,自然人需要謹慎對待,以避免侵犯他人著作權。在某些情況下,自然人可能會主張「全知能」生成物的合理使用。合理使用通常涉及對受保護作品的部分引用、評論或研究等,而無需獲得著作權人的許可。然而,合理使用的界定因國家和地區而異,因此自然人在發表「全知能」生成物時也需要關注適用法律的具體規定。 綜上所述,結合自然人在發表「全知能」生成物時存在的可能著作權糾紛風險和問題,為避免「全知能」生成物的語料的著作權糾紛,「全知能」生成物因此以不享有著作權,主張“合理使用”為更實際的選擇。 (二)為GPT模型生成物賦予著作權可能導致的問題 若要為「全知能」生成物賦予著作權,就需要確定著作權人,然而這一步就已經難于登天。著作權人的“候選人”有三位——開發者、使用者、語料著作權人。就「全知能」開發者而言,其可能是商業公司,也可能是個人,但無論其組織形式如何,若要成為著作權人享有著作權,就必須同時承擔著作權人的義務。著作權人的義務包括但不僅限于上段所述的取得語料著作權人許可的義務和向語料著作權人支付報酬的義務??紤]到「全知能」的落地產品,例如ChatGPT,目前的日活躍用戶已經穩定在一億之上,這樣的處理模式已經不具備可行性。若讓使用人享有「全知能」生成物的著作權,也會有這樣的問題。至于將生成物的著作權賦予語料著作權人共有,也會因為權利人過多、分布過廣,造成難以實踐的問題。 假設一方享有著作權,我們還會面臨嚴重的著作權濫用問題?!溉堋沟膬热萆伤俣冗h非自然人能夠企及。如果法律規定某一方享有「全知能」生成物的著作權,著作權人將會有極大的動機運用「全知能」窮盡式生成“作品”并主張著作權??赡艹霈F的濫用問題又會帶來更多的法律爭議,或許不賦予生成物著作權才是最“一勞永逸”的做法。 (三)為「全知能」賦予著作權權利人資格的困難 讓「全知能」成為著作權權利人存在多重障礙。在各國的現行法律法規中,著作權人的概念依舊僅限于法人、非法人組織(如果該國有這一概念)和自然人。這樣的限定不僅源于著作權法的立法目的,即保護作者在創作過程中的付出和促進文學、藝術和科學的傳播,還植根于民法中對民事主體的定義。如果意欲讓「全知能」成為著作權人,需要解決的問題則數不勝數:「全知能」不在憲法和民法的保護范圍內、其沒有民事行為能力、沒有責任財產…… 更重要的是,若要讓「全知能」成為其生成物的著作權人,其實質上就是要求法律制度承認人工智能模型具備和自然人至少接近的民事主體資格。如此翻天覆地的法律變動幾乎等于承認我們已經進入一個人與人工智能、機器人完全平等地共處于一個社會的時代,但請您看看周圍,這樣的時代尚未到來。在未來到來之前,保持排除「全知能」作為著作權人的可能性依是充分發揮法律現實價值的最佳方案。
五、總結 隨著ChatGPT自2022年年底以來的爆火,與其相關的諸多法律問題都引起了社會和業內的廣泛關注。筆者在本文中提出一「全知能」的概念,希望借由此概念啟發業界同仁從與GPT模型及類似的人工智能模型的共同特征入手,將日新月異的技術發展和紛繁復雜的概念變革“裝入”到「全知能」這一確定、清晰的虛構概念中,并在此概念之上對GPT模型及類似的人工智能模型帶來的各類知識產權問題進行討論和分析。盡管筆者在本文中僅僅試以「全知能」的概念對其創造能力及其生成物的著作權問題進行了討論,但筆者堅信「全知能」的精煉概念在后續其他知識產權領域法律問題的分析討論中仍有尚未被發掘出的益處。 當前,司法系統在應對人工智能技術帶來的挑戰時,仍主要依靠“目的性解釋”工具在現行法律框架內通過“排除適用”的方法解決實踐性問題。隨著人工智能技術的持續發展,現行法律將很有可能被迫修改以適應人工智能時代的新需求。筆者希望能至少為當下的法律問題的順利解決提供一些實踐性思路,并以期在未來法律的修正和訂立過程中貢獻綿薄之力。筆者愿法律界、學術界和社會各界在應對新挑戰的新時代中密切合作,共同推進人工智能技術與法律體系的融合發展。






