license: other
LLaMA-7B模型于2023年4月8日完成转换,适配最新版Transformers/HuggingFace框架。此版本已修复EOS(结束符)标记问题。
本模型采用特殊许可协议,具体条款详见LICENSE文件。
本仓库包含LLaMA-7b模型的权重文件。该模型受非商业许可协议约束(参阅LICENSE文件)。
仅限已通过此申请表获得模型访问权限,但遗失权重副本或转换至Transformers格式时遇到问题的用户使用。
--
license: other
LLaMA模型卡片
模型详情
开发机构
Meta AI的FAIR团队
训练时间
2022年12月至2023年2月
版本号
当前为v1版本
模型类型
LLaMA是基于Transformer架构的自回归语言模型,提供7B/13B/33B/65B四种参数量版本。
论文信息
详见研究论文《LLaMA:开放高效的基础语言模型》:
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
引用文献
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可协议
非商业定制许可
问题反馈
请通过项目GitHub仓库提交issue
使用范围
主要用途
• 大语言模型研究
• 探索问答系统/NLU/阅读理解等应用场景
• 分析模型能力边界及改进方法
• 评估和缓解偏见/风险/毒性内容生成问题
目标用户
自然语言处理、机器学习与人工智能领域研究者
非适用场景
本模型为基础版本,未经人类反馈训练,可能生成有毒/冒犯性内容、错误信息或无帮助回答,不推荐直接用于下游应用。
影响因素
关键因素
由于训练数据中英文占比最高(含20种语言),模型英语表现最佳。不同方言的性能差异已在前期研究中证实。
评估维度
基于网络数据训练的特性,我们通过RAI数据集评估了性别/宗教/种族/性取向/年龄/国籍/残障/外貌/社会经济地位等维度的偏见表现,并测量了不同提示毒性下的生成内容毒性。
评估指标
性能指标
• 常识推理/阅读理解/MMLU/BIG-bench hard/WinoGender/CrowS-Pairs准确率
• 问答任务精确匹配率
• RealToxicityPrompts的Perspective API毒性评分
不确定性说明
因训练成本限制,每个参数量级仅训练单一模型,未进行预训练变异性评估。
评估数据集
BoolQ/PIQA/SIQA/HellaSwag/WinoGrande/ARC/OpenBookQA/NaturalQuestions/TriviaQA/RACE/MMLU/BIG-bench hard/GSM8k/RealToxicityPrompts/WinoGender/CrowS-Pairs等基准测试。
训练数据
数据构成:CCNet(67%)/C4(15%)/GitHub(4.5%)/维基百科(4.5%)/书籍(4.5%)/ArXiv(2.5%)/Stack Exchange(2%)。维基百科和书籍数据涵盖保加利亚语/加泰罗尼亚语/捷克语/丹麦语/德语/英语/西班牙语/法语/克罗地亚语/匈牙利语/意大利语/荷兰语/波兰语/葡萄牙语/罗马尼亚语/俄语/斯洛文尼亚语/塞尔维亚语/瑞典语/乌克兰语等20种语言。
量化分析
模型架构超参数
表1 - LLaMA超参数总览
参数量 |
维度 |
头数 |
层数 |
学习率 |
批次大小 |
训练token数 |
7B |
4096 |
32 |
32 |
3.0E-04 |
4M |
1T |
13B |
5120 |
40 |
40 |
3.0E-04 |
4M |
1T |
33B |
6656 |
52 |
60 |
1.5E-04 |
4M |
1.4T |
65B |
8192 |
64 |
80 |
1.5E-04 |
4M |
1.4T |
表2 - 常识推理任务表现(准确率%)
参数量 |
BoolQ |
PIQA |
SIQA |
HellaSwag |
WinoGrande |
ARC-e |
ARC-c |
OBQA |
COPA |
7B |
76.5 |
79.8 |
48.9 |
76.1 |
70.1 |
76.7 |
47.6 |
57.2 |
93 |
13B |
78.1 |
80.1 |
50.4 |
79.2 |
73 |
78.1 |
52.7 |
56.4 |
94 |
33B |
83.1 |
82.3 |
50.4 |
82.8 |
76 |
81.4 |
57.8 |
58.6 |
92 |
65B |
85.3 |
82.8 |
52.3 |
84.2 |
77 |
81.5 |
56 |
60.2 |
94 |
表3 - 模型输出偏见评分(数值越低越好)
序号 |
类别 |
FAIR LLM |
1 |
性别 |
70.6 |
2 |
宗教 |
79 |
3 |
种族/肤色 |
57 |
4 |
性取向 |
81 |
5 |
年龄 |
70.1 |
6 |
国籍 |
64.2 |
7 |
残障 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社会经济地位 |
71.5 |
|
LLaMA平均 |
66.6 |
伦理考量
数据风险
训练数据包含网络爬取的攻击性/有害/偏见内容,模型可能继承这些特征。
生命相关警告
本模型不应用于影响人类生命安全的决策场景。
缓解措施
采用Kneser-Ney语言模型和fastText分类器,基于与维基百科文本的相似度进行数据过滤。
潜在危害
• 生成有害/偏见内容
• 产生幻觉(虚假信息)
• 传播错误知识
使用限制
作为基础模型,需经过风险评估和缓解措施后方可用于下游场景,严禁直接用于:
• 虚假信息生成
• 有害/偏见内容生产等高风险场景