成全在线观看免费完整的,成全影视大全免费追剧大全,成全视频高清免费播放电视剧好剧,成全在线观看免费完整,成全在线观看高清全集,成全动漫视频在线观看完整版动画

×

打開微信,掃一掃二維碼
訂閱我們的微信公眾號

首頁 錦天城概況 黨建工作 專業領域 行業領域 專業人員 全球網絡 新聞資訊 出版刊物 加入我們 聯系我們 訂閱下載 CN EN JP
首頁 > 全球網絡 > 上海 > 出版刊物 > 專業文章 > 人工智能大模型AI PUBS RAIL LICENSES許可證合規問題探析

人工智能大模型AI PUBS RAIL LICENSES許可證合規問題探析

作者:丁華 陳岱源 2024-04-07
[摘要]大模型領域的開源閉源之爭恰如曾經的計算機軟件的開源與閉源之爭,事實證明,開源與閉源都有著各自的優勢。在特定的發展時期,閉源發展能夠提高產業的專業性和初代產品落地的速度,但是開源往往后來居上,產業整體的繁榮依賴于開源。

一、 人工智能大模型領域的開源閉源之爭


在軟件領域存在開源軟件和閉源軟件的區分,在人工智能大模型領域同樣存在開源與閉源的分野。現有的開源大模型大部分都基于谷歌在2017年開源的Transformer架構,六年來,基于Transformer架構的大模型已經遍地開花,并且呈現出開源和閉源兩種發展方向。以最為知名的自然語言模型GPT為例,OpenAI最初研發的GPT-1、GPT-2是開源的,但后續的GPT-3、GPT-3.5(ChatGPT)、GPT-4選擇了閉源。閉源發展的商業決策甚至引發了近期馬斯克針對OpenAI及其兩名高管—首席執行官 Sam Altman 和總裁 Greg Brockman提起的訴訟,他們兩人與馬斯克合作,于 2015 年創立了OpenAI。訴訟稱,這兩人違反了與馬斯克最初達成的「創始協議」,該協議承諾公司將公開開發 AGI(通用人工智能),「造福人類」[1]。


知名模型開源社區Hugging Face的創始人Clem Delangue曾說:“OpenAI不足為懼,開源會慢慢趕上來”。2023年7月,Meta公司宣布開源Llama 2大模型并將其接入模型開源社區Hugging Face,其包含70 億、130 億和 700 億三種參數變體,具有媲美GPT-3.5的功能。通常的觀點認為,GPT-3.5的性能水平是大模型商用的分水嶺,而Meta開源Llama 2的舉動,無疑將在大模型產業領域掀起新的風暴。不少觀點認為,Llama 2這樣的非常強大的大模型選擇走開源路線已經預示著在大模型領域,也將出現開源對閉源的“入侵”,未來極有可能在Llama 2的基礎上衍生出一個大模型的開源生態環境[2],不少正在研發中的閉源模型實力甚至不如開源模型,將會面臨直接被放棄的命運。


在國內,大模型企業開始學習Meta的發展思路,例如百川智能將其百億級別參數的大模型 Baichuan-13B開源,并許可免費商用。清華大學的科技成果轉化公司智譜AI也開源了其開發的ChatGLM。而相反華為的盤古大模型與百度的文心一言則選擇了閉源。


大模型領域的開源閉源之爭恰如曾經的計算機軟件的開源與閉源之爭,事實證明,開源與閉源都有著各自的優勢。在特定的發展時期,閉源發展能夠提高產業的專業性和初代產品落地的速度,但是開源往往后來居上,產業整體的繁榮依賴于開源。


二、 制定負責任人工智能大模型RAIL系列許可證的背景


開源人工智能大模型許可證理念來自于開源軟件的許可證。幾十年的發展和繁榮,使得計算機軟件的開源理念和哲學已經深入人心。已經非常成熟開源軟件產業為開源人工智能的想法提供了現成的經驗。


以人工智能大語言模型為例,廣義人工智能大語言模型本質上由兩個核心組件構成:一個巨大的參數文件和一個運行這些參數的代碼文件。首先,參數文件,可以視為這些大語言模型的“DNA”,它包含了數以億計甚至數以萬億計的權重,這些權重是通過大量數據訓練而來的,它們共同構成了一個復雜的神經網絡。其次,代碼文件,則是可以視為這些大語言模型的“大腦”。這部分代碼負責指導如何使用參數文件中的權重來處理輸入的文本,執行推理,并產生輸出。這些代碼可以用各種編程語言編寫,它們定義了模型的架構、如何在給定的輸入下選擇最合適的詞匯以及如何結合上下文生成連貫的文本等[3]。狹義人工智能大語言模型僅指前述參數文件,而前述代碼文件則作為同狹義人工智能大語言模型配套的軟件。


如上所述,考慮到廣義人工智能模型就包括用各種編程語言編寫的代碼文件(即軟件),因此在最初的做法是直接將現成的開源軟件許可證例如Apache、MIT、BSD等直接應用于人工智能模型。這種做法已經非常普遍,在HuggingFace模型開放平臺上,存在著大量直接采用開源軟件許可證的人工智能大模型[5]。


但是,人工智能大模型與計算機軟件終究有所不同,開放一個人工智能大模型給全世界和開放一個軟件的源代碼所產生的“蝴蝶效應”是完全不同的。傳統的開源軟件許可證通常不會對計算機軟件的使用用途或目的進行限制。而因人工智能大模型日益接近甚至超越人類的能力,人工智能大模型可能被濫用,甚至違背人類倫理造成難以承受的負面后果,因此如果人工智能大模型僅沿用傳統開源軟件的許可證,則難以實現人類期望的人工智能發展目標。


RAIL Initiative在2019年成立,旨在倡導在許可證和合同中采用行為使用限制,以降低共享人工智能技術造成的傷害風險,并發布了第一批負責任的人工智能許可證(“RAIL”),用于許可源代碼和最終用戶軟件,以演示如何在許可證和合同中包含對行為的使用限制[3]。此后適用于人工智能大模型領域的RAIL系列許可證陸續發布,具體參見下圖[6]


image.png


截止2023年4月,HuggingFace平臺上已經有超過8000個存儲庫在使用RAIL許可證。有研究者統計,RAIL許可證已經成為HuggingFace平臺上使用率僅次于寬松型開源軟件許可證的第二大許可證類別[7]。


考慮到RAIL許可證分支種類較多,下文筆者主要就RAIL Initiative提供的RAIL樣本許可證中發布于在2023年的AI PUBS RAIL LICENSES進行介紹。


三、人工智能大模型AI PUBS RAIL LICENSES系列許可證簡介


AI PUBS RAIL LICENSES包括兩類四種許可證,第一類是開放的負責任的人工智能許可證AIPubs Open RAIL,具體有適用于模型的AIPubs Open RAIL-M許可證和適用于程序源代碼的AIPubs OpenRAIL-S許可證;第二類是僅限于研究用途的負責任的人工智能許可證AIPubs Research-Use RAIL,具體有適用于模型的AIPubs Research-Use RAIL-M許可證和適用于程序源代碼的AIPubs Research-Use RAIL-S許可證。


 (一)AIPubs Open RAIL-M許可證簡介及評述


截至目前RAIL Initiative發布的AIPubs Open RAIL-M許可證版本為0.1,發布時間為2023 年3月2日。許可證內容包括:第一節序言,第二節知識產權,第三節使用、分發和再分發的條件,第四節其他規定和附件A,其中主文有12個條文,附件A有3個條文。


第一節序言部分,首先,序言說明AIPubs Open RAIL-M許可證通常適用于任何機器學習模型。其次,序言聲明AIPubs Open RAIL-M許可證以“開放(Open)”命名表示下游和其他用戶可以自由訪問該被許可的模型。再次,序言聲明AIPubs Open RAIL-M許可證以“負責任的人工智能許可證(RAIL)”命名表示存在禁止使用該模型的使用限制,這些限制旨在避免對模型和模型衍生版本的潛在的濫用。最后,序言部分對模型許可證相關概念進行了定義,重要的定義和說明有:


“模型”是指任何隨附的基于機器學習的組合(包括檢查點),由學習的權重、參數(包括優化器狀態)組成,與補充材料中體現的模型架構相對應,該組合通過使用補充材料利用全部或部分數據進行了訓練或調整。


“補充材料”是指用于定義、運行、加載、基準檢測或評估模型的適用源代碼和腳本,和用于準備訓練或評估數據(如有)的適用源代碼和腳本。這包括任何隨附的文檔、使用說明、示例等(如果有)。


“數據”是指從數據集提取的信息和/或內容的集合和模型一起使用,包括為了訓練、預訓練或以其他方式評估模型。


“模型的衍生作品”是指對模型的所有修改,基于模型的作品,或通過將模型的權重、參數、激活或模型輸出的模式轉移到另一個模型來創建或初始化的任何其他模型,以使其他模型的執行與該模型相似,包括但不限于需要使用中間數據表示的蒸餾方法或基于該模型為訓練其他模型生成的合成數據的方法。


“貢獻”系指權利人或被授權以權利人名義提交的個人或法律實體有意提交給許可人以納入模型的任何作品,包括模型的原始版本以及對該模型或其衍生作品的任何修改或添加。為了定義的目的,“提交”是指發送給許可方或其代表的任何形式的電子、口頭或書面通信,包括但不限于由許可方或其代表管理的電子郵件列表、源代碼控制系統和問題跟蹤系統上的以討論和改進模型為目的通信,但不包括被權利所有者以明顯標記或以其他方式書面指定為“不是一個貢獻”的通信。


“輸出”是指運行模型的結果,體現在由此產生的信息內容中。


由上定義可知AIPubs Open RAIL-M許可證中模型和模型的衍生作品是指前文介紹的廣義模型概念中的參數文件,補充材料則是前文介紹的廣義模型概念中的代碼文件(及計算機軟件)。知AIPubs Open RAIL-M許可證明確聲明,補充材料和數據均另行許可,不適用AIPubs Open RAIL-M許可證。


第二節知識產權部分,明確授予許可和專利許可給任何使用領域使用模型及其衍生作品的個人或法律實體版權。每個貢獻者就再制造、準備、公開展示、公開執行、可分許可和分發模型和模型的衍生作品,授予永久的、全球性的、非排他性的、不收費的、免版稅的、不可撤銷的版權許可。每個貢獻者就制造、委托制造、使用、許諾銷售、銷售、進口和以其他方式轉讓模型和/或模型的衍生作品,授予永久的、全球性的、非排他性的、不收費的、免版稅的、不可撤銷的(許可證另有規定除外)的專利許可。如果模型使用者針對任何實體提起專利訴訟(包括訴訟中的交叉請求或反請求),聲稱模型或模型的衍生作品和/或合并進模型或模型的衍生作品中的貢獻構成直接或間接專利侵權,則根據AIPubs Open RAIL-M許可證授予的模型和/或模型衍生作品的任何專利許可應自此類訴訟被主張或提起之日起終止。


第三節內容為使用、分發和再分發的條件。AIPubs Open RAIL-M許可證第三節第4條規定的再制造和分發模型或模型的衍生作品的副本以及為第三方提供遠程訪問(例如軟件即服務)需要遵循的條件包括:(a)將第 5 條使用限制包含在管轄模型或模型衍生作品的法律協議(例如許可證)中,并通知分發給的后續用戶,模型或模型的衍生作品受第 5 條使用限制的約束;(b)必須向模型或模型衍生作品的任何第三方接收者提供一份AIPubs Open RAIL-M許可證副本; (c) 使任何修改的文件帶有顯著的通知,聲明修改了該文件; (d)保留所有版權、專利、商標和歸屬聲明。第三節第5條規定要求使用模型或模型衍生作品的所有用戶遵守AIPubs Open RAIL-M許可證附件A中規定的使用限制。第三節第6條對使用模型的輸出進行了規定,許可方對使用模型生成的輸出不主張任何權利。使用模型者對生成的輸出及其后續使用負有責任。對輸出的任何使用均不會違反AIPubs Open RAIL-M許可證中陳述的任何條款。


第四節內容為其他規定。第7條規定 在法律允許的最大范圍內,許可方保留違反AIPubs Open RAIL-M許可證時限制(遠程或其他方式)使用模型權利。第8條規定許可方不授予使用許可方商標、商號、標識的權利。第9條是模型按“原樣”提供的許可方無擔保聲明。第10條是在任何法律理論下,無論是侵權(包括疏忽)、合同還是其他,任何貢獻者均不對模型使用者的損害承擔責任的責任限制聲明。


AIPubs Open RAIL-M許可證附件A規定了對模型或其衍生作品三個方面的使用限制。1、法律方面使用限制,不得以違反任何適用的國家、聯邦、州、地方或國際法律或法規的方式使用模型或其衍生作品。2、傷害和歧視方面的使用限制:(a)不得以剝削、傷害或試圖剝削或傷害未成年人的用途使用模型或其衍生作品;(b)不得生成或傳播虛假信息以傷害他人;(c)不得生成或傳播可用于傷害個人的個人身份識別信息;(d)不得誹謗、貶損或以其他方式騷擾他人;(e)不得基于已知或預測的在線或離線社交行為個人或人格特征,意圖或具有傷害個人或群體效果使用模型或其衍生作品;(f)不得利用特定群體基于其年齡、社會、身體或精神特征的任何脆弱性,對屬于該群體的個人的行為進行實質性扭曲,通過導致或可能導致該該個人或另一個人傷害的方式使用模型或其衍生作品;(g)基于受法律保護的特征或類別,意圖或具有歧視個人或群體的方式使用模型或其衍生作品。3、透明度方面的使用限制:(a)不得在任何媒介上生成或傳播機器生成的信息或內容,而不明確和清晰地否認其為機器生成的;(b) 不得為了欺騙的目的假冒或企圖假冒人類; (c)不得用于全自動決策,該決策對于對個人合法權利產生不利影響或以其他方式產生或修改具有約束力、可執行義務的情況。


從AIPubs Open RAIL-M許可證內容簡介看,該許可證制定時主要參考了開源Apache許可證版本 2.0的內容,二者類似的條款很多,二者主要的不同點在于:1、AIPubs Open RAIL-M許可證將使用模型為第三方提供遠程訪問(例如軟件即服務)亦納入許可證約束范圍,而根據Apache許可證版本 2.0在使用開源軟件為第三方提供遠程訪問(例如軟件即服務)并不觸發約束條件;2、AIPubs Open RAIL-M許可證第5條和附件A規定了使用限制,而Apache許可證版本 2.0并未此類使用限制。3、AIPubs Open RAIL-M許可證第6條專門對使用模型的輸出進行了規定,而Apache許可證版本 2.0并無專門對使用開源軟件的輸出結果的明確規定。


(二)AIPubs Open RAIL-S許可證簡介及評述


截至目前RAIL Initiative發布的AIPubs Open RAIL-S許可證版本為0.1,發布時間為2023 年3月2日。許可證內容包括第一節序言,第二節知識產權,第三節使用、分發和再分發的條件,第四節其他規定和附件A,其中主文有11個條文,附件A有3個條文。


AIPubs Open RAIL-S許可證和AIPubs Open RAIL-M許可證的條款內容基本相同,只是根據適用范圍不同(前者為源代碼,后者為模型),對相關條款進行了修改。對照AIPubs Open RAIL-M許可證的條款,AIPubs Open RAIL-S許可證的修改如下:


在第一節序言部分:適用范圍上,明確AIPubs Open RAIL-S許可證通常適用于負責任的有使用限制的任何源代碼。刪除了AIPubs Open RAIL-M許可證中“補充材料”的定義,代之以“源代碼”的定義。“源代碼”是指使用人類可讀的編程語言寫的任何文本集合,包括用于定義、運行、加載、基準測試或評估模型或其任何組件的代碼和腳本,和/或用于準備訓練或評估的數據的代碼和腳本。為清楚起見,本許可中使用的術語“源代碼”包括該源代碼的任何和所有衍生作品。刪除了AIPubs Open RAIL-M許可證中“模型的衍生作品”的定義,代之以“衍生作品”的定義。“衍生作品”是指包含對源代碼的增加和/或修改的所有作品。


第二節知識產權部分:對照AIPubs Open RAIL-M許可證的條款,AIPubs Open RAIL-S許可證相應將模型及模型衍生作品相關版權和專利的授權修改為源代碼及源代碼衍生作品相關版權和專利的授權。


第三節內容為使用、分發和再分發的條件部分,AIPubs Open RAIL-S許可證中使用分發和再分發的條件和AIPubs Open RAIL-M許可證基本相同,僅是根據許可證使用范圍將“模型及模型衍生作品”相應修改為源代碼及其衍生作品。另刪除了對“使用模型的輸出”的規定條款。


第四節內容為其他規定部分,AIPubs Open RAIL-S許可證和AIPubs Open RAIL-M許可證基本相同,僅是根據許可證使用范圍將“模型及模型衍生作品”相應修改為源代碼及其衍生作品。


AIPubs Open RAIL-M許可證附件A部分,AIPubs Open RAIL-S許可證和AIPubs Open RAIL-M許可證規定的使用限制完全相同。


(三)AIPubs Research-Use RAIL-M許可證簡介及評述


截至目前RAIL Initiative發布的AIPubs Research-Use RAIL-M許可證版本為0.1,發布時間為2023 年3月2日。許可證內容也為第一節序言,第二節知識產權,第三節使用、分發和再分發的條件,第四節其他規定和附件A,其中主文有12個條文,附件A有3個條文。


AIPubs Research-Use RAIL-M許可證和AIPubs Open RAIL-M許可證的條款內容基本相同,只是將用途從開放Open(即允許下游和其他用戶可以自由訪問該被許可的模型)修改為僅適用于研究用途Research-Use(即僅用于學術或研究用途)。


(四)AIPubs Research-Use RAIL-S許可證簡介及評述


截至目前RAIL Initiative發布的AIPubs Research-Use RAIL-S許可證版本為0.1,發布時間為2023 年3月2日。許可證內容也為第一節序言,第二節知識產權,第三節使用、分發和再分發的條件,第四節其他規定和附件A,其中主文有11個條文,附件A有3個條文。


AIPubs Research-Use RAIL-S許可證和AIPubs Open RAIL-S許可證的條款內容基本相同,只是將用途從開放Open(即允許下游和其他用戶可以自由訪問該被許可的模型)修改為僅適用于研究用途Research-Use(即僅用于學術或研究用途)。


四、人工智能大模型AI PUBS RAIL LICENSES系列許可證合規要點


如前文所述人工智能大模型AI PUBS RAIL LICENSES系列許可證的制定參考了開源Apache許可證版本 2.0的內容,二者存在類似條款,因此參照Apache許可證合規實務,提出如下人工智能大模型AI PUBS RAIL LICENSES系列許可證合規要點。


(一)明確人工智能大模型適用的AI PUBS RAIL LICENSES許可證具體版本


人工智能大模型許可證合規項目工作的第一步是判斷人工智能大模型適用許可證種類和版本。具體為分清人工智能大模型的參數文件(即模型)所適用的許可證和人工智能大模型的代碼文件(即源代碼)所適用的許可證,進而根據相應的許可證內容確定人工智能大模型許可證合規工作的具體依據。


(二)評估人工智能大模型的應用風險


人工智能大模型AI PUBS RAIL LICENSES系列許可證都帶有明確的免責聲明和責任限制條款,此類條款對于保護將人工智能大模型開源的貢獻者至關重要,但也同時這意味著雖然人工智能大模型的后續使用者可以根據許可證協議使用開源的人工智能大模型的參數文件和代碼文件,但是依然存在著侵犯他方版權或者專利的風險。因此建議企業在使用使用開源的人工智能大模型的參數文件和代碼文件時,盡可能選用人工智能大模型開源社區知名公司發布的,或業內廣泛使用的開源大模型的參數文件和代碼文件。此類開源代碼由于具有知名企業背書或經過長期市場檢驗,侵權風險較小。而冷門、小眾的開源大模型的參數文件和代碼文件相對較大,需要慎評估后決定是否使用。


(三)對適用AI PUBS RAIL LICENSES系列許可證人工智能大模型后續應用和開發的開源/閉源選擇


對于AIPubs Open RAIL-M和 AIPubs OpenRAIL-S兩個“公開Open”性質的許可證類似于Apache 許可證版本 2.0屬于寬松型開源協議,其并不要求后續使用者對基于開源人工智能大模型的衍生作品繼續進行開源,因此基于適用AIPubs Open RAIL許可證的人工智能大模型制作而成的衍生作品,該衍生作品的開發者有權決定是否繼續開放其修改后的大模型衍生作品。


開源與否涉及到企業對于平衡商業利益和公共利益的考慮,對自身的研發成果進行開源盡管看起來是企業讓渡了部分商業利益,但是這一促進公共利益的技術分享行為,可以使全球的開發者共同參與該開源項目,更快地發現和修復人工智能大模型項目缺陷,提升產品性能,從而提高企業在業界的聲譽,使企業得以宣傳自身的開源軟件項目,提高相關開源人工智能大模型項目的知名度和影響力。


對于AIPubs Research-Use RAIL-M和AIPubs Research-Use RAIL-S兩個研究用途許可證,許可證內容中刪除了下游和其他用戶可以自由訪問該被許可的模型/源代碼的條款,考慮到其只能用于研究和學術用途,原則上應僅在研究范圍內允許訪問和使用。


(四)根據AI PUBS RAIL LICENSES系列許可證的具體版本,嚴格履行許可證項下規定的義務


根據人工智能大模型的具體使用情形,例如:為第三方遠程訪問服務(例如軟件即服務),通過任何媒體復制和分發模型/源代碼,按照AI PUBS RAIL LICENSES系列許可證規定履行相關許可證義務。許可證義務主要包括兩方面:


第一方面類似開源軟件許可證Apache2.0的義務,向模型或模型衍生作品的任何第三方接收者提供一份許可證的副本、使任何修改的文件帶有顯著的通知,聲明修改了該文件、保留所有版權、專利、商標和歸屬聲明。


第二方面是AI PUBS RAIL LICENSES系列許可證特有的用途限制的義務,主要按照AI PUBS RAIL LICENSES系列許可證附件A嚴格對使用人工智能大模型的用途進行限制。必須將AI PUBS RAIL LICENSES系列許可證第 5 條及附件A限制作為可執行的條款包含在管轄模型/源代碼的使用和/或分發的任何類型的法律協議中,還應通知分發給的后續用戶,模型或模型的衍生作品受第 5 條的約束。對于AIPubs Research-Use RAIL-M和AIPubs Research-Use RAIL-S兩個研究用途許可證,還要求源代碼的任何第三方接收者必須遵守僅被允許的學術和研究用途。


注釋

[1] 參見《馬斯克起訴OpenAI:他們做出了AGI還授權給微軟,這是對創始協議赤裸裸的背叛》https://www.thepaper.cn/newsDetail_forward_26532034

[2] 參見《開源VS閉源,大模型永不會結束的戰爭》,https://new.qq.com/rain/a/20230906A01UE700

[3] 參見《OpenAI聯合創始人通俗解讀大語言模型》https://mp.weixin.qq.com/s/VUxmkXlJxiYCu9YB1A_WLw

[4] 參見https://huggingface.co/models?license=license:apache-2.0&sort=downloads

[5] 參見https://www.licenses.ai/blog/2022/8/18/naming-convention-of-responsible-ai-licenses

[6] 參見https://www.licenses.ai/faq-2

[7] 參見https://www.licenses.ai/license-adoption


欢迎光临: 阿坝县| 乌鲁木齐县| 南通市| 革吉县| 隆德县| 定州市| 开化县| 海原县| 奉节县| 沂源县| 西乌| 仁布县| 蓬安县| 安庆市| 临漳县| 玛曲县| 高密市| 英吉沙县| 安化县| 将乐县| 吉木乃县| 昌邑市| 买车| 枣阳市| 长治县| 武夷山市| 阜城县| 开封县| 八宿县| 屏南县| 岳池县| 清苑县| 客服| 海宁市| 衡阳县| 罗田县| 稻城县| 邵阳市| 兴国县| 青田县| 古田县|