许可证:其他
复制自:decapoda-research/llama-7b-hf
LLaMA-7B已转换为可与Transformers/HuggingFace配合使用的版本。该模型采用特殊许可证,详情请参阅LICENSE文件。
--
许可证:其他
LLaMA模型卡片
模型详情
开发机构
Meta AI的FAIR团队。
模型日期
LLaMA训练于2022年12月至2023年2月期间。
模型版本
此为模型的第一版。
模型类型
LLaMA是基于Transformer架构的自回归语言模型,提供不同参数规模:7B、13B、33B和65B。
论文或更多信息
更多信息请参阅论文《LLaMA:开放高效的基础语言模型》,链接:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/。
引用详情
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证
非商业定制许可证
模型问题反馈
关于LLaMA的问题或意见可通过项目GitHub仓库提交issue。
预期用途
主要用途
LLaMA主要用于大型语言模型研究,包括:
- 探索潜在应用如问答、自然语言理解或阅读理解
- 理解当前语言模型的能力与局限,并开发改进技术
- 评估和缓解偏见、风险、有害内容生成及幻觉问题
主要用户
自然语言处理、机器学习和人工智能领域的研究人员。
非适用范围
LLaMA是基础模型,未经进一步风险评估和缓解措施前,不应直接用于下游应用。尤其需注意:模型未经过人类反馈训练,可能生成有毒/冒犯性内容、错误信息或无帮助回答。
影响因素
相关因素
模型性能差异最显著的因素是语言类型。尽管训练数据包含20种语言,但以英语为主,因此英语表现预期优于其他语言。研究表明不同方言性能可能存在差异,本模型亦不例外。
评估因素
由于训练数据来自网络,模型会反映其中的偏见。我们通过RAI数据集评估了性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位等方面的偏见表现,并测量了不同提示毒性下模型生成内容的毒性水平。
评估指标
模型性能指标
采用以下评估标准:
- 常识推理、阅读理解、自然语言理解(MMLU)、BIG-bench hard、WinoGender和CrowS-Pairs的准确率
- 问答任务的精确匹配率
- RealToxicityPrompts的Perspective API毒性评分
决策阈值
不适用。
不确定性与变异性处理
鉴于大模型训练的高计算成本,每个规模仅训练一个模型,因此无法评估预训练的变异性。
评估数据集
模型在以下基准测试中评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
训练数据
训练数据来源及比例:
CCNet [67%]、C4 [15%]、GitHub [4.5%]、维基百科 [4.5%]、书籍 [4.5%]、ArXiv [2.5%]、Stack Exchange[2%]。
维基百科和书籍数据包含以下语言:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。详见论文中训练集及预处理细节。
定量分析
模型架构超参数
表1 - LLaMA模型超参数总览
参数量 |
维度 |
头数 |
层数 |
学习率 |
批次大小 |
训练token数 |
7B |
4096 |
32 |
32 |
3.0E-04 |
4M |
1T |
13B |
5120 |
40 |
40 |
3.0E-04 |
4M |
1T |
33B |
6656 |
52 |
60 |
1.5E-04 |
4M |
1.4T |
65B |
8192 |
64 |
80 |
1.5E-04 |
4M |
1.4T |
表2 - LLaMA在推理任务中的表现
参数量 |
BoolQ |
PIQA |
SIQA |
HellaSwag |
WinoGrande |
ARC-e |
ARC-c |
OBQA |
COPA |
7B |
76.5 |
79.8 |
48.9 |
76.1 |
70.1 |
76.7 |
47.6 |
57.2 |
93 |
13B |
78.1 |
80.1 |
50.4 |
79.2 |
73 |
78.1 |
52.7 |
56.4 |
94 |
33B |
83.1 |
82.3 |
50.4 |
82.8 |
76 |
81.4 |
57.8 |
58.6 |
92 |
65B |
85.3 |
82.8 |
52.3 |
84.2 |
77 |
81.5 |
56 |
60.2 |
94 |
表3 - 模型输出偏见评估(数值越低表示偏见越小)
编号 |
类别 |
FAIR LLM |
1 |
性别 |
70.6 |
2 |
宗教 |
79 |
3 |
种族/肤色 |
57 |
4 |
性取向 |
81 |
5 |
年龄 |
70.1 |
6 |
国籍 |
64.2 |
7 |
残疾 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社会经济地位 |
71.5 |
|
LLaMA平均 |
66.6 |
伦理考量
数据
训练数据来自网络,包含攻击性、有害和偏见内容,模型可能继承这些偏见。
人类生活
本模型不应用于影响人类核心生活事项的决策。
缓解措施
我们基于与维基百科文本的相似度和引用关系过滤网络数据,使用了Kneser-Ney语言模型和fastText线性分类器。
风险与危害
大语言模型可能生成有害、冒犯或偏见内容,并产生错误信息(幻觉)。本模型亦存在此类风险。
使用场景
作为基础模型,LLaMA需经过额外风险评估和缓解措施后才能用于下游应用。潜在风险包括但不限于:生成错误信息和有害/偏见内容。