llama-7b-embeddings开源语言模型 - 支持多语言，免费畅享高效文本处理

首页

Llama 7b Embeddings

由 shalomma 开发

Meta AI开发的7B参数规模开源高效基础语言模型，基于Transformer架构，支持多语言但以英语为主

大型语言模型

Transformers

开源协议:其他 #多语言研究 #高效基础模型 #自回归架构

下载量 36

发布时间 : 3/6/2023

模型简介

LLaMA是Meta AI开发的基础语言模型，主要用于研究用途，探索语言模型的能力与局限性

模型特点

高效架构设计

通过优化的Transformer架构实现高效推理，相比同类模型参数更少但性能接近

多语言支持

训练数据包含20种语言，虽以英语为主但具备多语言处理潜力

研究导向

专门为语言模型研究设计，包含全面的偏见和毒性评估指标

模型能力

文本生成

问答系统

阅读理解

常识推理

自然语言理解

使用案例

学术研究

语言模型能力评估

用于评估模型在各类NLP任务中的表现

在BoolQ、PIQA等基准测试中表现优异

偏见研究

分析模型输出中的社会偏见

提供性别、宗教等9类偏见的量化评估

技术探索

模型优化技术开发

作为基础模型测试各种优化方法

🚀 LLaMA模型

LLaMA-7B 已转换为可与 Transformers/HuggingFace 配合使用。此模型遵循特殊许可协议，详情请参阅 LICENSE 文件。

🚀 快速开始

本部分暂未提供相关内容，若有需要可进一步补充。

✨ 主要特性

模型转换：将 LLaMA-7B 转换为可与 Transformers/HuggingFace 协同工作的形式。
多用途研究：主要用于大语言模型的研究，如探索问答、自然语言理解等潜在应用。

📚 详细文档

模型详情

开发组织：Meta AI 的 FAIR 团队。
模型日期：LLaMA 于 2022 年 12 月至 2023 年 2 月期间进行训练。
模型版本：此为模型的第 1 版。
模型类型：LLaMA 是基于 Transformer 架构的自回归语言模型，有 7B、13B、33B 和 65B 参数等不同规模。
更多信息资源：更多信息可在论文 “LLaMA, Open and Efficient Foundation Language Models” 中找到，论文链接为 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/。
引用详情：https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证：非商业定制许可证。
问题反馈途径：有关 LLaMA 的问题和建议可通过项目的 GitHub 仓库提交 issue。

预期用途

主要预期用途：LLaMA 主要用于大语言模型的研究，包括探索问答、自然语言理解或阅读理解等潜在应用；了解当前语言模型的能力和局限性，并开发改进技术；评估和减轻偏见、风险、有毒有害内容生成以及幻觉等问题。
主要预期用户：该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。
超出范围的用例：LLaMA 是基础模型，在未进行进一步风险评估和缓解的情况下，不应直接用于下游应用。特别是，该模型未经过人类反馈训练，可能会生成有毒或冒犯性内容、错误信息或无用答案。

影响因素

相关因素：影响模型性能的一个重要因素是使用的语言。尽管训练数据包含 20 种语言，但大部分数据集是英文文本，因此预计模型在英文上的表现会优于其他语言。此外，先前研究表明不同方言也可能影响模型性能，预计本模型也会如此。
评估因素：由于模型在网络数据上进行训练，预计会反映出该数据源的偏见。因此，在 RAI 数据集上对模型进行评估，以衡量其在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位等方面的偏见。同时，根据提示模型的上下文毒性，测量模型生成内容的毒性。

评估指标

模型性能指标：使用以下指标评估模型：
- 常识推理、阅读理解、自然语言理解（MMLU）、BIG-bench hard、WinoGender 和 CrowS-Pairs 的准确率。
- 问答的精确匹配率。
- RealToxicityPrompts 上 Perspective API 的毒性得分。
决策阈值：不适用。
不确定性和可变性处理方法：由于训练大语言模型的计算要求较高，每种规模仅训练了一个模型，因此无法评估预训练的可变性。

评估数据集

模型在以下基准测试中进行评估：BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。

训练数据集

模型使用以下数据源进行训练：CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange[2%]。Wikipedia 和 Books 领域的数据包含以下语言：bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多详细信息，请参阅论文。

定量分析

模型架构超参数

LLaMA参数数量	维度	头数	层数	学习率	批量大小	标记数
7B	4096	32	32	3.0E-04	4M	1T
13B	5120	40	40	3.0E-04	4M	1T
33B	6656	52	60	1.5.E-04	4M	1.4T
65B	8192	64	80	1.5.E-04	4M	1.4T

表 1 - LLaMA 模型超参数总结

推理任务性能

LLaMA参数数量	BoolQ	PIQA	SIQA	HellaSwag	WinoGrande	ARC-e	ARC-c	OBQA	COPA
7B	76.5	79.8	48.9	76.1	70.1	76.7	47.6	57.2	93
13B	78.1	80.1	50.4	79.2	73	78.1	52.7	56.4	94
33B	83.1	82.3	50.4	82.8	76	81.4	57.8	58.6	92
65B	85.3	82.8	52.3	84.2	77	81.5	56	60.2	94

表 2 - LLaMA 模型在推理任务上的性能总结

偏差评估

编号	类别	FAIR LLM
1	性别	70.6
2	宗教	79
3	种族/肤色	57
4	性取向	81
5	年龄	70.1
6	国籍	64.2
7	残疾	66.7
8	外貌	77.8
9	社会经济地位	71.5
	LLaMA 平均	66.6

表 3 - 模型输出偏差总结

伦理考量

数据：用于训练模型的数据来自多个来源，主要是网络数据，因此包含冒犯性、有害和有偏见的内容。预计模型会表现出训练数据中的这些偏见。
人类生活：该模型不用于为与人类生活密切相关的决策提供信息，也不应以这种方式使用。
缓解措施：基于数据与维基百科文本和参考资料的接近程度对网络数据进行过滤，使用了 Kneser-Ney 语言模型和 fastText 线性分类器。
风险和危害：大语言模型的风险和危害包括生成有害、冒犯性或有偏见的内容。这些模型通常容易生成错误信息，有时被称为幻觉。预计本模型也不例外。
用例：LLaMA 是基础模型，在未进行进一步调查和风险缓解的情况下，不应直接用于下游应用。这些风险和潜在的不良用例包括但不限于生成错误信息和有害、有偏见或冒犯性内容。