license: other
LLaMA-7B已转换为适用于Transformers/HuggingFace框架的版本。该模型采用特殊许可协议,具体条款请参阅LICENSE文件。
--
license: other
LLaMA模型卡片
模型详情
开发机构
Meta AI的FAIR团队。
模型训练时间
LLaMA于2022年12月至2023年2月期间训练完成。
模型版本
当前为v1版本。
模型类型
LLaMA是基于Transformer架构的自回归语言模型,提供7B/13B/33B/65B四种参数量级。
论文及资源
详见论文《LLaMA:开放高效的基础语言模型》:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
引用信息
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可协议
非商业定制许可
问题反馈
请通过项目GitHub仓库提交issue。
用途说明
主要用途
• 大语言模型研究(问答系统/NLU/阅读理解等应用探索)
• 模型能力边界分析及改进技术开发
• 偏见/风险/有害内容/幻觉问题的评估与缓解
目标用户
自然语言处理、机器学习及人工智能领域的研究人员。
非适用场景
本模型为基础版本,未经下游应用风险评估前不应直接部署。特别提示:模型未经过人类反馈训练,可能生成有毒/冒犯性内容、错误信息或无帮助回答。
影响因素
关键因素
语言类型是影响性能的主要因素。虽然训练数据涵盖20种语言,但英文数据占主导,预计英文表现最优。不同方言的性能差异已在前期研究中证实。
评估维度
基于网络数据的训练特性,我们通过RAI数据集评估了性别/宗教/种族/性取向/年龄/国籍/残障/外貌/社会经济地位等维度的偏见表现,并测量了不同提示语境下的毒性水平。
评估指标
性能指标
• 常识推理/阅读理解/NLU任务准确率(MMLU/BIG-bench hard/WinoGender/CrowS-Pairs)
• 问答任务精确匹配率
• RealToxicityPrompts的Perspective API毒性评分
决策阈值
不适用
不确定性处理
因训练算力限制,每个参数量级仅训练单一模型,未进行预训练变异性评估。
评估数据集
BoolQ/PIQA/SIQA/HellaSwag/WinoGrande/ARC/OpenBookQA/NaturalQuestions/TriviaQA/RACE/MMLU/BIG-bench hard/GSM8k/RealToxicityPrompts/WinoGender/CrowS-Pairs等基准测试。
训练数据
数据构成:CCNet(67%)/C4(15%)/GitHub(4.5%)/维基百科(4.5%)/图书(4.5%)/ArXiv(2.5%)/Stack Exchange(2%)。维基百科和图书数据包含以下语言:bg/ca/cs/da/de/en/es/fr/hr/hu/it/nl/pl/pt/ro/ru/sl/sr/sv/uk。详见论文预处理细节。
量化分析
模型超参数
参数量 |
维度 |
头数 |
层数 |
学习率 |
批大小 |
训练token数 |
7B |
4096 |
32 |
32 |
3.0E-04 |
4M |
1T |
13B |
5120 |
40 |
40 |
3.0E-04 |
4M |
1T |
33B |
6656 |
52 |
60 |
1.5E-04 |
4M |
1.4T |
65B |
8192 |
64 |
80 |
1.5E-04 |
4M |
1.4T |
表1:LLaMA超参数汇总
常识推理任务表现(%)
参数量 |
BoolQ |
PIQA |
SIQA |
HellaSwag |
WinoGrande |
ARC-e |
ARC-c |
OBQA |
COPA |
7B |
76.5 |
79.8 |
48.9 |
76.1 |
70.1 |
76.7 |
47.6 |
57.2 |
93 |
13B |
78.1 |
80.1 |
50.4 |
79.2 |
73 |
78.1 |
52.7 |
56.4 |
94 |
33B |
83.1 |
82.3 |
50.4 |
82.8 |
76 |
81.4 |
57.8 |
58.6 |
92 |
65B |
85.3 |
82.8 |
52.3 |
84.2 |
77 |
81.5 |
56 |
60.2 |
94 |
表2:推理任务性能对比
偏见评估得分(数值越低越好)
编号 |
类别 |
FAIR LLM |
1 |
性别 |
70.6 |
2 |
宗教 |
79 |
3 |
种族/肤色 |
57 |
4 |
性取向 |
81 |
5 |
年龄 |
70.1 |
6 |
国籍 |
64.2 |
7 |
残障 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社会经济地位 |
71.5 |
|
LLaMA平均得分 |
66.6 |
表3:模型输出偏见分析
伦理考量
数据风险
训练数据包含网络采集的冒犯性/有害/偏见内容,模型可能继承这些特征。
生命相关决策
禁止用于影响人类生命安全的决策场景。
缓解措施
采用Kneser-Ney语言模型和fastText分类器,基于维基百科文本相似度进行数据过滤。
潜在危害
存在生成有害/偏见/错误信息(幻觉)的固有风险。
使用限制
作为基础模型,未经充分风险评估前不得直接用于下游应用。主要风险包括但不限于:错误信息传播、有害内容生成等。