人工智能開源大模型和Llama 3和Llama 2許可證合規(guī)探析
作者:丁華 黃威 陳岱源 2024-04-19一、人工智能開源大模型和Llama 3和Llama2簡(jiǎn)介
Llama的英文全稱是Large Language Model Meta AI,是Meta AI公司在2023年2月發(fā)布的大語言模型,其基于transformer架構(gòu),具有7B、13B、33B 和65B四種不同的版本[1]。
Llama 2則是Meta與微軟合作在2023年7月18日發(fā)布的新一代開放大語言模型,其具有三種參數(shù)規(guī)模,分別是70 億、130 億和 700 億。Llama 2的基礎(chǔ)模型發(fā)布時(shí),還附帶發(fā)布了一個(gè)針對(duì)對(duì)話進(jìn)行微調(diào)的模型,稱為L(zhǎng)lama 2 Chat[2]。
Llama 2相較于Llama1體現(xiàn)出明顯的優(yōu)勢(shì)。Llama 2在預(yù)訓(xùn)練數(shù)據(jù)的體量上比Llama 1增加了40%,達(dá)到了2萬億個(gè)token,其文本長(zhǎng)度從第一代的2048擴(kuò)展到4096。Llama Chat 模型也在 100 多萬個(gè)新的人類注釋上進(jìn)行了訓(xùn)練[3]。這一巨大的提升意味著模型擁有更加豐富的語言學(xué)習(xí)資源,為其在各種任務(wù)中的表現(xiàn)提供了堅(jiān)實(shí)的基礎(chǔ)。此外,Llama2的訓(xùn)練數(shù)據(jù)中的文本來源也更為多樣化,進(jìn)一步增強(qiáng)了模型的泛化能力。Llama-2的技術(shù)報(bào)告顯示,其基礎(chǔ)模型的性能比GPT-3更強(qiáng),其微調(diào)對(duì)話模型的性能已經(jīng)接近ChatGPT。
2023年8月,專門用于編程的代碼大語言模型Code Llama也相應(yīng)發(fā)布,并且采用同Llama 2相同的社區(qū)許可證,允許商業(yè)使用[4]。其包含 4 個(gè)不同參數(shù)量的版本,分別為7B、13B、34B 和 70B。在訓(xùn)練基礎(chǔ)模型時(shí),先用同等參數(shù)量的 Llama 2 模型初始化權(quán)重,然后在 5000 億詞元的代碼數(shù)據(jù)集上訓(xùn)練[5]。Meta 還對(duì)訓(xùn)得的基礎(chǔ)模型進(jìn)行了兩種不同風(fēng)格的微調(diào),分別為: Python 專家版 (再加 1000 億個(gè)額外詞元) ; 以及指令微調(diào)版,其可以理解自然語言指令[6]。
最為重要是,Llama 1在發(fā)布時(shí)僅許可了研究用途[7],但是Llama 2是一個(gè)真正開源的大模型,并且支持產(chǎn)品活躍用戶小于7億的商業(yè)使用。圍繞Llama 2的開源大模型生態(tài)開始逐步產(chǎn)生。
由于Llama 2本身的預(yù)訓(xùn)練數(shù)據(jù)中,中文數(shù)據(jù)的比例非常非常少,因此Llama 2本身的中文能力較弱,但是貴在其具有開源特性,很多中國(guó)開發(fā)者在Llama的中文社區(qū)中貢獻(xiàn)數(shù)據(jù)對(duì)其進(jìn)行“中文特訓(xùn)”。目前,國(guó)內(nèi)已經(jīng)建立了非常成熟的Llama中文社區(qū)[8],Github達(dá)到 4.7k star,匯聚了國(guó)內(nèi)如清華、交大以及浙大等高校團(tuán)隊(duì)的頂級(jí)人才。
目前基于Llama的中文開源大模型已經(jīng)有“原子回聲”聯(lián)合Llama中文社區(qū)開發(fā)的“原子大模型”[9]、哈工大-科大訊飛聯(lián)合實(shí)驗(yàn)室開源的Chinese-LLaMA-Alpaca、深圳大學(xué)-大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國(guó)家工程實(shí)驗(yàn)室發(fā)布的Linly-OpenLLaMA、IDEA研究院發(fā)布的姜子牙通用大模型(Ziya-LLaMA-13B-v1)等。
美國(guó)時(shí)間2024年的4月18日,Meta發(fā)布了Llama的第三代開源模型Llama 3,該模型現(xiàn)在已經(jīng)可以通過Meta AI官網(wǎng)、Hugging Face社區(qū)、GitHub社區(qū)下載。Llama 3 共有四個(gè)版本,8B 適用于消費(fèi)級(jí) GPU 的高效部署和開發(fā),70B 適用于大規(guī)模人工智能原生應(yīng)用,這兩種型號(hào)都有基本版本(Meta-Llama-3-8b、Meta-Llama-3-70b)和指令調(diào)整版本(Meta-Llama-3-8b-instruct、Meta-Llama-3-70b-instruct)。除了這 4 種型號(hào)外,Meta還發(fā)布了新版的Llama Guard 第二代,其在 Llama 3 8B 上進(jìn)行了微調(diào),其作用是對(duì)大模型的輸入(提示)和響應(yīng)進(jìn)行分類,以檢測(cè)在風(fēng)險(xiǎn)分類法中被視為不安全的內(nèi)容[10],該組件也是對(duì)以負(fù)責(zé)任的方式開發(fā)人工智能的要求的回應(yīng)。
在模型的架構(gòu)方面,根據(jù)Meta的官網(wǎng)介紹,Llama 3 使用具有 128K token 詞匯表的 tokenizer,在 8B 和 70B 大小的模型上采用了分組查詢注意力 (GQA),在 8192 個(gè) token 的序列上訓(xùn)練模型[11]。
在預(yù)訓(xùn)練數(shù)據(jù)方面,Llama 3 在超過 15T 的公開來源詞庫(kù)上進(jìn)行了預(yù)訓(xùn)練,數(shù)據(jù)數(shù)量是Llama 2的7倍,包含的代碼數(shù)量是 Llama 2 的4倍。并且有趣的是,Meta使用了Llama 2為L(zhǎng)lama 3的文本質(zhì)量分類器的預(yù)訓(xùn)練提供數(shù)據(jù)[12],換言之,AI已經(jīng)可以用于訓(xùn)練下一代AI。
Meta還在擴(kuò)大與訓(xùn)練規(guī)模以及指令微調(diào)方面對(duì)Llama 3進(jìn)行了優(yōu)化,使得Llama 3 的訓(xùn)練效率相比Llama 2提高了約三倍[13]。
二、人工智能開源大模型Llama 2和Llama3許可證簡(jiǎn)介
(一)Llama 2許可證內(nèi)容簡(jiǎn)介
人工智能開源大模型Llama 2許可證是一個(gè)定制的商業(yè)許可證,人工智能開源大模型Llama 2的發(fā)布者M(jìn)eta希望可以在模型的開放訪問與責(zé)任和保護(hù)之間取得平衡,以幫助解決潛在的誤用問題。人工智能開源大模型Llama 2許可證包括兩項(xiàng)內(nèi)容,第一項(xiàng)是Llama 2 社區(qū)許可證(LLAMA 2 Community License Agreement);第二項(xiàng)是Llama 2 可接受使用政策(Llama 2 Acceptable Use Policy)。
1、Llama 2 社區(qū)許可證(LLAMA 2 Community License Agreement)內(nèi)容簡(jiǎn)介
Llama 2 社區(qū)許可證(LLAMA 2 Community License Agreement)發(fā)布于2023 年 7 月 18 日,許可證內(nèi)容包括定義部分和7個(gè)條款。
定義部分對(duì)Llama2和Llama2材料進(jìn)行了界定,“Llama 2”是指基礎(chǔ)大語言模型及軟件和算法,包括機(jī)器學(xué)習(xí)模型代碼、訓(xùn)練過的模型權(quán)重、可推理代碼、可訓(xùn)練代碼、可微調(diào)代碼以及Meta在llama.meta.com/llama-downloads/分發(fā)上述材料的其他部分。“Llama 材料”統(tǒng)指Meta 擁有的 Llama 2 和其文檔(及其任何部分)。“文檔”是指由 Meta 在 llama.meta.com/llama-downloads/上分發(fā)的 Llama 2 隨附的規(guī)格、手冊(cè)和文檔。LLAMA 2 Community License規(guī)定了對(duì)Llama 材料的使用、復(fù)制、分發(fā)和修改的條款和條件。
LLAMA 2 Community License Agreement的許可人根據(jù)被許可人所在地域也有區(qū)別,如果被許可人位于歐洲經(jīng)濟(jì)區(qū)或瑞士,則許可人Meta指Meta Platforms Ireland Limited;如果被許可人位于歐洲經(jīng)濟(jì)區(qū)或瑞士以外則,許可人Meta指Meta Platforms, Inc.
第1條許可權(quán)利和再分發(fā)部分,根據(jù) Meta 的知識(shí)產(chǎn)權(quán)或 Meta 所擁有的 Llama 材料中體現(xiàn)的其他權(quán)利,授予被許可方非獨(dú)占、全球性、不可轉(zhuǎn)讓且免版稅的有限許可,可以使用、復(fù)制、分發(fā)、拷貝、創(chuàng)作派生作品以及制作對(duì) Llama 材料的修改。
第1條在規(guī)定授予許可同時(shí),也規(guī)定了再分發(fā)和使用的條件:(i)如果您向第三方分發(fā)或制作 Llama 材料或其任何派生作品,應(yīng)向該第三方提供許可協(xié)議的副本;(ii) 如果您從被許可人處收到作為集成最終用戶產(chǎn)品一部分的 Llama 材料或其任何派生作品,則協(xié)議第 2 條規(guī)定的附加商業(yè)條款將不適用;(iii)您必須在您分發(fā)的 Llama 材料的所有副本的 “Notice”文本文件(該文件為該副本的一部分) 中保留一份下面的歸屬聲明:“Llama 2 根據(jù) LLAMA 2 社區(qū)許可證被許可,版權(quán)所有 ? Meta Platforms, Inc 。所有權(quán)利保留。”(iv)您對(duì) Llama 材料的使用必須遵守適用的法律和法規(guī)(包括貿(mào)易合規(guī)法律和法規(guī)),并遵守 Llama 材料的可接受使用政策,并將該政策作為許可協(xié)議的一部分;(v) 您不得使用 Llama 材料或 任何輸出或Llama 材料的結(jié)果來改進(jìn)任何其他大型語言模型(不包括 Llama 2 或其派生作品)。
第2條附加商業(yè)條款規(guī)定,如果在 Llama 2 版本發(fā)布之日,被許可方或被許可方的關(guān)聯(lián)公司提供的產(chǎn)品或服務(wù)的每月活躍用戶數(shù)在上一個(gè)日歷月中超過 7 億,則必須向Meta申請(qǐng)?jiān)S可證,Meta 可以自行決定是否授予該權(quán)利,并且您無權(quán)行使許可協(xié)議項(xiàng)下的任何權(quán)利,除非或直到 Meta 明確授予您此類權(quán)利。
第3條無擔(dān)保聲明規(guī)定,除非適用法律要求,否則 LLAMA 材料及其任何輸出和結(jié)果均按“原樣”提供,不提供任何類型的明示或默示擔(dān)保,包括但不限于所有權(quán)、不侵權(quán)、適銷性或特定用途的適用性的任何擔(dān)保。您單獨(dú)負(fù)責(zé)決定使用或再分發(fā) LLAMA 材料的適當(dāng)性,并承擔(dān)與您使用 LLAMA 材料以及任何輸出和結(jié)果相關(guān)的任何風(fēng)險(xiǎn)。
第4條責(zé)任限制規(guī)定,在任何情況下,META 或其關(guān)聯(lián)公司基于任何責(zé)任理論,無論是合同、侵權(quán)、疏忽、產(chǎn)品責(zé)任或因許可協(xié)議引起,均不對(duì)任何利潤(rùn)損失或任何間接、特殊、后果性、伴隨性、懲戒性或懲罰性損害承擔(dān)責(zé)任,即使 Meta 或其關(guān)聯(lián)公司已被告知發(fā)生上述任何情況的可能性。
第5條知識(shí)產(chǎn)權(quán)規(guī)定:(a)許可協(xié)議未授予任何商標(biāo)許可,并且因 Llama 材料關(guān)聯(lián),無論Meta還是被許可方均不得使用對(duì)方或其任何關(guān)聯(lián)公司擁有或與之相關(guān)的任何名稱或標(biāo)記,除非為了描述和再分發(fā)Llama 材料而合理和慣常使用。(b)根據(jù) Meta 對(duì)其制作的 Llama 材料及其衍生品的所有權(quán),對(duì)于您做出的對(duì) Llama 材料的任何修改和派生作品,在您和 Meta 之間,您現(xiàn)在和將來都是此類派生作品和修改的擁有者。(c)如果您針對(duì) Meta 或任何實(shí)體提起訴訟或其他程序(包括訴訟中的交叉請(qǐng)求或反請(qǐng)求),聲稱 Llama 材料或 Llama 2 輸出或結(jié)果,或任何前述內(nèi)容的任何部分構(gòu)成對(duì)您擁有或可許可的知識(shí)產(chǎn)權(quán)或其他權(quán)利的侵權(quán),則根據(jù)許可協(xié)議授予您的任何許可應(yīng)自提出或啟動(dòng)此類訴訟或請(qǐng)求之日起終止。對(duì)于因您使用或分發(fā) Llama 材料而引起或與之相關(guān)的任何第三方提出的針對(duì)Meta的任何請(qǐng)求,您應(yīng)對(duì) Meta 進(jìn)行賠償并使其免受損害。
第6條期限和終止規(guī)定,許可協(xié)議的期限自您接受許可協(xié)議或訪問 Llama 材料時(shí)開始,并將持續(xù)完全有效,直至根據(jù)許可協(xié)議的條款和條件而終止。如果您違反許可協(xié)議的任何條款或條件,Meta 可以終止許可協(xié)議。許可協(xié)議終止后,您應(yīng)刪除并停止使用 Llama 材料。第 3、4 和 7 條在許可協(xié)議終止后仍然有效。
第7條適用法律和管轄權(quán)規(guī)定,許可協(xié)議將受加利福尼亞州法律管轄和解釋,但不包括選擇法律的規(guī)則,并且《聯(lián)合國(guó)國(guó)際貨物銷售合同公約》不適用于許可協(xié)議。加利福尼亞法院對(duì)因許可協(xié)議引起的任何爭(zhēng)議擁有獨(dú)占的管轄權(quán)。
2、Llama 2 可接受使用政策(Llama 2 Acceptable Use Policy)內(nèi)容簡(jiǎn)介
Meta 為了促進(jìn)安全、公平地使用其工具和功能(包括 Llama 2),制定了Llama 2 可接受使用政策(Llama 2 Acceptable Use Policy)。Llama 2 可接受使用政策規(guī)定了4類禁止用途。
第1類是違反法律或侵犯他人權(quán)利的方式利用Llama 2,具體包括:(a) 參與、促進(jìn)、產(chǎn)生、促成、鼓勵(lì)、計(jì)劃、煽動(dòng)或進(jìn)一步非法或不合法的活動(dòng)或內(nèi)容,例如:暴力或恐怖主義、剝削或傷害兒童,包括誘惑、創(chuàng)建、獲取或傳播兒童剝削內(nèi)容或未能報(bào)告兒童性虐待材料。(b)人口販買、剝削和性暴力;向未成年人非法分發(fā)信息或材料,包括淫穢材料,或未對(duì)此類信息或材料采用法律要求的年齡限制;性誘惑;任何其他犯罪活動(dòng)。(c) 參與、促進(jìn)、煽動(dòng)或協(xié)助對(duì)個(gè)人或個(gè)人群體進(jìn)行騷擾、虐待、威脅或欺凌。(d) 在提供就業(yè)、就業(yè)福利、信貸、住房、其他經(jīng)濟(jì)福利或其他基本商品和服務(wù)時(shí)參與、促進(jìn)、煽動(dòng)或協(xié)助歧視或其他非法或有害行為。(e)從事任何未經(jīng)授權(quán)或未經(jīng)許可的專業(yè)實(shí)踐,包括但不限于金融、法律、醫(yī)療/健康或相關(guān)專業(yè)實(shí)踐。(f)未經(jīng)適用法律要求的權(quán)利和同意,收集、處理、披露、生成或推斷有關(guān)個(gè)人的健康、人口統(tǒng)計(jì)或其他敏感個(gè)人或個(gè)人信息。(g)參與或協(xié)助任何侵犯、盜用或以其他方式侵犯任何第三方權(quán)利的行動(dòng)或生成任何內(nèi)容,包括使用 Llama 2 材料的任何產(chǎn)品或服務(wù)的輸出或結(jié)果。(h)創(chuàng)建、生成或協(xié)助創(chuàng)建惡意代碼、惡意軟件、計(jì)算機(jī)病毒或執(zhí)行任何其他可能禁用、超載、干擾或損害網(wǎng)站或計(jì)算機(jī)系統(tǒng)的正常工作、完整性、操作或外觀的行為。
第2類是參與、促進(jìn)、煽動(dòng)、便利或協(xié)助計(jì)劃或開展對(duì)個(gè)人造成死亡或身體傷害風(fēng)險(xiǎn)的活動(dòng),具體包括:(a)軍事、戰(zhàn)爭(zhēng)、核工業(yè)或應(yīng)用、間諜活動(dòng)、用于受美國(guó)國(guó)務(wù)院維持的《國(guó)際運(yùn)輸武器條例》(ITAR) 約束的材料或活動(dòng)。(b)槍支和非法武器(包括武器開發(fā))。(c)非法藥物和管制/管制物質(zhì)。(d)關(guān)鍵基礎(chǔ)設(shè)施的運(yùn)營(yíng)、運(yùn)輸技術(shù)或重型機(jī)械。(e)自傷或傷害他人,包括自殺、割傷和進(jìn)食障礙。(f)任何旨在煽動(dòng)或宣揚(yáng)暴力、虐待或?qū)€(gè)人造成身體傷害的內(nèi)容。
第3類故意欺騙或誤導(dǎo)他人,包括使用 Llama 2 進(jìn)行以下相關(guān)活動(dòng):(a)生成、宣揚(yáng),或增進(jìn)欺詐或創(chuàng)造或宣揚(yáng)虛假信息。(b)生成、宣傳或增進(jìn)傳播誹謗性內(nèi)容,包括創(chuàng)建誹謗性言論、圖像或其他內(nèi)容。(c)生成、宣傳或增進(jìn)分發(fā)垃圾郵件。(d)未經(jīng)同意、授權(quán)或合法權(quán)利假冒其他個(gè)人。(e)聲明 Llama 2 的使用或輸出是人類生成的。(f)生成或促進(jìn)虛假在線參與,包括虛假評(píng)論和其他虛假在線參與方式。
第4類是未能適當(dāng)?shù)叵蜃罱K用戶披露人工智能系統(tǒng)的任何已知危險(xiǎn)的情況。
(二)Llama 3許可證內(nèi)容簡(jiǎn)介
1、Llama 3 社區(qū)許可證(LLAMA 3 Community License Agreement)內(nèi)容簡(jiǎn)介
Llama 3 社區(qū)許可證(LLAMA 3 Community License Agreement)發(fā)布于2024 年 4 月 18 日,許可證內(nèi)容包括定義部分和7個(gè)條款。
Llama 3 社區(qū)許可證(LLAMA 3 Community License Agreement)條款內(nèi)容基本沿襲了Llama 2 社區(qū)許可證(LLAMA 2 Community License Agreement)的條款內(nèi)容,實(shí)質(zhì)性修改有兩點(diǎn)。
第一點(diǎn)修改是對(duì)再分發(fā)和使用Llama3的條件做出了重大修改。Llama2社區(qū)許可證的第1條b款(i)項(xiàng)此前僅要求如果被許可者向第三方分發(fā)或制作 Llama 材料或其任何派生作品,應(yīng)向該第三方提供許可協(xié)議的副本。Llama 3 社區(qū)許可證(LLAMA 3 Community License Agreement)第1條b款(i)項(xiàng)修改為,如果被許可者分發(fā)或提供 Llama 材料(或其任何衍生作品)或使用了Llama3中任何材料的產(chǎn)品或服務(wù)(包括其他 AI 模型),被許可者應(yīng) (A) 隨任何此類 Llama 材料提供本協(xié)議的副本; (B) 在相關(guān)網(wǎng)站、用戶界面、博客文章、關(guān)于頁(yè)面或產(chǎn)品文檔上突出顯示“Built with Meta Llama 3”。如果被許可者使用 Llama 材料來創(chuàng)建、訓(xùn)練、微調(diào)或以其他方式改進(jìn)一個(gè) AI 模型,并進(jìn)行分發(fā)或使其可用,被許可者還應(yīng)在任何此類 AI 模型名稱的開頭加入“Llama 3”字樣。
第二點(diǎn)修改是對(duì)第5條知識(shí)產(chǎn)權(quán)條款a款中商標(biāo)授權(quán)條例進(jìn)行了修改。Llama2社區(qū)許可證的第5條a款此前未授予任何商標(biāo)許可,雖然因 Llama 材料關(guān)聯(lián),無論Meta還是被許可方均不得使用對(duì)方或其任何關(guān)聯(lián)公司擁有或與之相關(guān)的任何名稱或標(biāo)記,除非為了描述和再分發(fā)Llama 材料而合理和慣常使用。Llama 3 社區(qū)許可證(LLAMA 3 Community License Agreement)第5條a款項(xiàng)修改為,未授予任何商標(biāo)許可,雖然因 Llama 材料關(guān)聯(lián),無論Meta還是被許可方均不得使用對(duì)方或其任何關(guān)聯(lián)公司擁有或與之相關(guān)的任何名稱或標(biāo)記,除非為了描述和再分發(fā)Llama 材料而合理和慣常使用或按照本第 5(a) 條的規(guī)定使用。Meta 在此授予被許可者使用“Llama 3”(“標(biāo)記”)的許可,該許可僅限于根據(jù)第 1條b款(i)項(xiàng)最后一句規(guī)定而使用,即在AI 模型名稱的開頭加入“Llama 3”字樣。被許可者將遵守Meta的品牌指南(目前可訪問https://about.meta .com/brand/resources/meta/company-brand/)。許可者因使用該標(biāo)記而產(chǎn)生的所有商譽(yù)都將歸屬于Meta。
2、Llama 3 可接受使用政策(Llama 3 Acceptable Use Policy)內(nèi)容簡(jiǎn)介
Meta 就Llama3的使用限制,發(fā)布了Llama 3 可接受使用政策(Llama 3 Acceptable Use Policy)。Llama 3 可接受使用政策規(guī)定了4類禁止用途,具體內(nèi)容同Llama 2 可接受使用政策相同,并無實(shí)質(zhì)性修改。
三、人工智能開源大模型Llama 2許可證合規(guī)需要關(guān)注的問題
根據(jù)前文對(duì)如前文對(duì)人工智能開源大模型Llama 2 社區(qū)許可證(LLAMA 2 Community License)和Llama 2 可接受使用政策(Llama 2 Acceptable Use Policy)內(nèi)容的簡(jiǎn)要介紹,商業(yè)公司在合規(guī)訪問、使用和分發(fā)人工智能開源大模型Llama 2時(shí)應(yīng)當(dāng)關(guān)注如下問題。
(一)Llama 2許可證許可的內(nèi)容是Llama 2模型參數(shù)文件、代碼文件及其文檔
Llama 2許可證許可的內(nèi)容是“Llama 材料”, 而“Llama 材料包括Meta 擁有的 Llama 2 和其文檔。
“Llama 2”是指基礎(chǔ)大語言模型及軟件和算法,包括機(jī)器學(xué)習(xí)模型代碼、訓(xùn)練過的模型權(quán)重、可推理代碼、可訓(xùn)練代碼、可微調(diào)代碼以及Meta分發(fā)上述材料的其他部分。“文檔”是指由 Meta分發(fā)的 Llama 2 隨附的規(guī)格、手冊(cè)和文檔。
(二)Llama 2的模型權(quán)重參數(shù)文件和開源代碼文件統(tǒng)一適用Llama 2許可證
Meta并沒有將Llama 2的模型權(quán)重參數(shù)文件和開源代碼文件進(jìn)行區(qū)分,沒有分別適用模型許可證和開源軟件許可證,而是統(tǒng)一適用其定制的Llama 2 社區(qū)許可證(LLAMA 2 Community License)和Llama 2 可接受使用政策(Llama 2 Acceptable Use Policy)。
(三)Meta對(duì)被許可人授予的使用關(guān)于Llama 2的知識(shí)產(chǎn)權(quán)范圍應(yīng)當(dāng)包括版權(quán)和專利權(quán),但不包括商標(biāo)和商號(hào)權(quán)
Llama 2許可證第1條是Meta根據(jù)其享有的知識(shí)產(chǎn)權(quán)或 Meta 所擁有的 Llama 材料中體現(xiàn)的其他權(quán)利,授予被許可方非獨(dú)占、全球性、不可轉(zhuǎn)讓且免版稅的有限許可,可以使用、復(fù)制、分發(fā)、拷貝、創(chuàng)作派生作品以及制作對(duì) Llama 材料的修改。考慮到Llama 2許可證第1條的許可是根據(jù)Meta 的知識(shí)產(chǎn)權(quán)或 Meta 所擁有的 Llama 材料中體現(xiàn)的其他權(quán)利概括性做出的許可,原則上應(yīng)當(dāng)包括屬于知識(shí)產(chǎn)權(quán)范疇的版權(quán)許可和專利許可。
Llama 2許可證議未授予任何商標(biāo)許可,并且因 Llama 材料關(guān)聯(lián),無論Meta還是被許可方均不得使用對(duì)方或其任何關(guān)聯(lián)公司擁有或與之相關(guān)的任何名稱或標(biāo)記,除非為了描述和再分發(fā)Llama 材料而合理和慣常使用。
(四)不得使用Llama2及其輸出用于改進(jìn)其他大語言模型
Llama 2許可證規(guī)定,被許可人不得使用 Llama 材料或任何輸出或Llama 材料的結(jié)果來改進(jìn)任何其他大型語言模型(不包括 Llama 2 或其派生作品)。開源軟件許可證一般沒有此類限制,因此需要Llama2的使用者特別關(guān)注。
(五)如果被許可人及其關(guān)聯(lián)公司提供的產(chǎn)品或服務(wù)的月訪問用戶超過7億,需要另行申請(qǐng)單獨(dú)的商業(yè)許可
Llama 2 社區(qū)許可證(LLAMA 2 Community License)根據(jù)Llama官網(wǎng)的介紹就是一個(gè)定制的商業(yè)許可,被許可人可將Llama用于商業(yè)或非商業(yè)用途
但Llama 2 社區(qū)許可證(LLAMA 2 Community License)同時(shí)規(guī)定,如果在 Llama 2 版本發(fā)布之日,被許可方或被許可方的關(guān)聯(lián)公司提供的產(chǎn)品或服務(wù)的每月活躍用戶數(shù)在上一個(gè)日歷月中超過 7 億,則必須向Meta申請(qǐng)單獨(dú)的商業(yè)許可證。Meta 可以自行決定是否授予該權(quán)利。開源軟件許可證一般沒有此類規(guī)定,該規(guī)定事實(shí)上要求大型互聯(lián)網(wǎng)公司單獨(dú)申請(qǐng)商業(yè)許可,排除在Llama 2 社區(qū)許可證(LLAMA 2 Community License)適用的被許可人范圍之外。
(六)被許可人擁有Llama2所做的修改形成的派生作品,且無強(qiáng)制開源義務(wù)
Llama 2許可證規(guī)定,根據(jù) Meta 對(duì)其制作的 Llama 材料及其衍生品的所有權(quán),對(duì)于被許可人做出的對(duì) Llama 材料的任何修改和派生作品,在被許可人和 Meta 之間,被許可人現(xiàn)在和將來都是此類派生作品和修改的擁有者。
Llama 2許可證規(guī)定也類似于Apache 許可證版本 2.0屬于寬松型開源協(xié)議,除履行保留許可證內(nèi)容、聲明等開源許可證義務(wù)外,其并不要求后續(xù)使用者對(duì)基于開源人工智能大模型進(jìn)行修改得到的派生作品繼續(xù)進(jìn)行開源/開放,因此被許可人對(duì)修改Llama2獲得的派生作品,有權(quán)決定是否繼續(xù)開源/開放其修改后的Llama2派生作品。
(七)被許可人需遵守Llama 2 可接受使用政策(Llama 2 Acceptable Use Policy),不得違反使用限制
被許可人在使用、分發(fā)和修改Llama 2時(shí),不得違反Llama 2可接受使用政策(Llama 2 Acceptable Use Policy),將Llama2用于四類禁止用途:第1類違反法律或侵犯他人權(quán)利的方式利用Llama 2;第2類參與、促進(jìn)、煽動(dòng)、便利或協(xié)助計(jì)劃或開展對(duì)個(gè)人造成死亡或身體傷害風(fēng)險(xiǎn)的活動(dòng);第3類故意欺騙或誤導(dǎo)他人;第4類是未能適當(dāng)?shù)叵蜃罱K用戶披露人工智能系統(tǒng)的任何已知危險(xiǎn)的情況。其中前3類使用限制和通用的AI Open RAIL許可證相似,第4類是Llama 2許可證另外增加的限制。
(八)Llama 2使用語言限制問題
Llama 2 社區(qū)許可證(LLAMA 2 Community License)和Llama 2 可接受使用政策(Llama 2 Acceptable Use Policy)均沒有語言限制條款。
但在Llama 2的模型卡文件(MODEL_CARD.md)的“預(yù)期使用方式”(Intended Use)中規(guī)定,Llama 2的預(yù)期用途為以英語形式的商業(yè)和研究用途。“超出范圍的使用行為”包括:以任何違反適用法律或法規(guī)(包括貿(mào)易合規(guī)法)的方式使用;以Llama 2可接受使用政策和Llama 2社區(qū)許可證禁止的任何其他方式使用。使用英語以外的語言。在前述規(guī)定后還特別注明,如果符合Llama 2社區(qū)許可證和Llama 2可接受使用政策,開發(fā)人員可以針對(duì)英語以外的語言對(duì)Llama 2中的模型進(jìn)行微調(diào)[14]。
考慮到,Llama 2 社區(qū)許可證(LLAMA 2 Community License)和Llama 2 可接受使用政策(Llama 2 Acceptable Use Policy)中均沒有語言限制條款;且在Llama 2模型卡文件除了說明Llama 2的預(yù)期用途為以英語形式的商業(yè)和研究用途外,還特別注明開發(fā)人員可以針對(duì)英語以外的語言對(duì)Llama 2中的模型進(jìn)行微調(diào),因此筆者認(rèn)為L(zhǎng)lama 2模型卡文件中關(guān)于使用英語的限制說明應(yīng)當(dāng)是對(duì)Llama 2使用性能的說明(因Llama 2語料庫(kù)以英文為主),而非從法律角度禁止將Llama2用于其他語言(包括中文)。Meta的開源及產(chǎn)品主管Joseph Spisak在Github回答了一位法語開發(fā)者關(guān)于語言限制問題的提問,Joseph Spisak指出Llama 2并沒有在多語言的基礎(chǔ)上進(jìn)行訓(xùn)練,因此將其用于支持英語之外的語言應(yīng)用將使結(jié)果變得不可靠,但是這并不是禁止的,只要遵守法律條款和使用政策,開發(fā)者當(dāng)然可以用其他語言對(duì)Llama 2進(jìn)行微調(diào),并且將成果進(jìn)一步商用[15]。
在符合Llama 2社區(qū)許可證和Llama 2可接受使用政策的情況下,開發(fā)人員可以針對(duì)英語以外的語言對(duì)Llama 2中的模型進(jìn)行微調(diào)后,將微調(diào)后的模型用于英語以外的語言的商業(yè)和研究用途。
四、 人工智能開源大模型Llama 3許可證合規(guī)需要進(jìn)一步關(guān)注的問題
根據(jù)前文對(duì)Llama 3 社區(qū)許可證(LLAMA 3 Community License Agreement)和Llama 3 可接受使用政策(Llama 3 Acceptable Use Policy)內(nèi)容的簡(jiǎn)要介紹,考慮到Llama 3的社區(qū)許可證和Llama2的社區(qū)許可證的主要內(nèi)容相同,商業(yè)公司在合規(guī)訪問、使用和分發(fā)人工智能開源大模型Llama 3時(shí)亦應(yīng)關(guān)注前述使用Llama 2時(shí)需關(guān)注的問題,并在此基礎(chǔ)上對(duì)Llama 3許可證和Llama2許可證差異之處予以特別關(guān)注,具體為:
如果被許可者分發(fā)或提供 Llama 材料(或其任何衍生作品)或使用了Llama3中任何材料的產(chǎn)品或服務(wù)(包括其他 AI 模型),被許可者除應(yīng)隨任何此類 Llama 材料提供本協(xié)議的副本外,還應(yīng)當(dāng) 在相關(guān)網(wǎng)站、用戶界面、博客文章、關(guān)于頁(yè)面或產(chǎn)品文檔上突出顯示“Built with Meta Llama 3”。
如果被許可者使用 Llama 材料來創(chuàng)建、訓(xùn)練、微調(diào)或以其他方式改進(jìn)一個(gè) AI 模型,并進(jìn)行分發(fā)或使其可用,被許可者還應(yīng)在任何此類 AI 模型名稱的開頭加入“Llama 3”字樣。Meta僅在此種情況下授予被許可者使用“Llama 3”標(biāo)記的許可,被許可者需要遵守 Meta 發(fā)布在其官網(wǎng)上的品牌指南,且被許可者因使用“Llama 3”而產(chǎn)生的所有商譽(yù)都將歸屬M(fèi)eta。
注釋
[1] https://github.com/meta-llama/llama/blob/main/MODEL_CARD.md。
[2] https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/。
[3] https://llama.meta.com/llama2/。
[4] https://huggingface.co/meta-llama/CodeLlama-7b-hf。
[5] https://llama.meta.com/code-llama。
[6] https://huggingface.co/blog/zh/codellama#code-llama-%E7%AE%80%E4%BB%8B。
[7] https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/vi
[8] https://github.com/FlagAlpha/Llama2-Chines。
[9] https://llama.family/。
[10] https://huggingface.co/blog/llama3。
[11] https://ai.meta.com/blog/meta-llama-3/。
[12] https://ai.meta.com/blog/meta-llama-3/。
[13] https://ai.meta.com/blog/meta-llama-3/。
[14] https://github.com/meta-llama/llama/blob/main/MODEL_CARD.md
[15] https://github.com/meta-llama/llama/issues/406






