许可证: 其他
语言:
🦙 适用于Huggingface Transformers的Llama模型
本模型是通过HuggingFace转换脚本从官方Llama-7B转换而来,可与Transformers/HuggingFace兼容。该模型采用特殊许可证,详情请参阅LICENSE文件。
本版本基于decapoda-research/llama-7b-hf更新(由于decapoda仓库尚未合并多项拉取请求,故在此新建仓库)。主要改进包括:
(1) 命名规范化(LLaMA→Llama),使LlamaForCausalLM
和LlamaTokenizer
完全符合transformers
命名规则,完美适配transformers>=4.28.0
版本。
(2) 模型检查点改为2个分片存储(原版为33个分片),减少分片数量可显著提升磁盘加载速度。
--
许可证: 其他
Llama模型卡片
模型详情
开发机构
Meta AI的FAIR团队
训练时间
2022年12月至2023年2月
版本号
初始版本v1.0
模型类型
Llama是基于Transformer架构的自回归语言模型,提供7B/13B/33B/65B四种参数量级。
论文资源
详见论文《Llama:开放高效的基座语言模型》:https://research.facebook.com/publications/Llama-open-and-efficient-foundation-language-models/
引用信息
https://research.facebook.com/publications/Llama-open-and-efficient-foundation-language-models/
许可协议
非商业定制许可证
问题反馈
请通过项目GitHub仓库提交issue
使用范围
主要用途
• 大语言模型研究
• 探索问答/NLU/阅读理解等应用场景
• 评估模型能力边界及改进方法
• 偏见/风险/有害内容生成研究
目标用户
NLP/ML/AI领域研究人员
非适用场景
未经风险评估的下游应用部署(可能生成有毒/冒犯性内容或错误信息)
影响因素
关键因素
训练数据以英文为主(含20种语言),英语表现最优
评估维度
基于网络数据训练,需评估性别/宗教/种族等维度的偏见表现
评估指标
性能指标
• 常识推理/阅读理解准确率(MMLU/BIG-bench等)
• 问答精确匹配率
• RealToxicityPrompts毒性评分
训练稳定性
受算力限制,每个尺寸仅训练单一模型
基准测试
覆盖BoolQ/PIQA/SIQA/HellaSwag/WinoGrande/ARC/OpenBookQA/NaturalQuestions/TriviaQA/RACE/MMLU/BIG-bench/GSM8k/RealToxicityPrompts/WinoGender/CrowS-Pairs等数据集
训练数据
数据构成:CCNet(67%)/C4(15%)/GitHub(4.5%)/维基百科(4.5%)/书籍(4.5%)/ArXiv(2.5%)/Stack Exchange(2%),支持bg/ca/cs/da/de/en/es/fr/hr/hu/it/nl/pl/pt/ro/ru/sl/sr/sv/uk等20种语言
量化分析
超参数配置
参数量 |
维度 |
头数 |
层数 |
学习率 |
批大小 |
训练token数 |
7B |
4096 |
32 |
32 |
3.0E-04 |
4M |
1T |
13B |
5120 |
40 |
40 |
3.0E-04 |
4M |
1T |
33B |
6656 |
52 |
60 |
1.5E-04 |
4M |
1.4T |
65B |
8192 |
64 |
80 |
1.5E-04 |
4M |
1.4T |
表1:Llama超参数配置
推理任务表现
参数量 |
BoolQ |
PIQA |
SIQA |
HellaSwag |
WinoGrande |
ARC-e |
ARC-c |
OBQA |
COPA |
7B |
76.5 |
79.8 |
48.9 |
76.1 |
70.1 |
76.7 |
47.6 |
57.2 |
93 |
13B |
78.1 |
80.1 |
50.4 |
79.2 |
73 |
78.1 |
52.7 |
56.4 |
94 |
33B |
83.1 |
82.3 |
50.4 |
82.8 |
76 |
81.4 |
57.8 |
58.6 |
92 |
65B |
85.3 |
82.8 |
52.3 |
84.2 |
77 |
81.5 |
56 |
60.2 |
94 |
表2:Llama推理任务表现
偏见评估
编号 |
偏见维度 |
得分 |
1 |
性别 |
70.6 |
2 |
宗教 |
79 |
3 |
种族/肤色 |
57 |
4 |
性取向 |
81 |
5 |
年龄 |
70.1 |
6 |
国籍 |
64.2 |
7 |
残障 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社会经济地位 |
71.5 |
|
平均分 |
66.6 |
表3:模型输出偏见评估(数值越低越好)
伦理考量
数据风险
训练数据包含网络有害/偏见内容,模型可能继承这些特征
使用限制
不得用于影响人类生命安全的决策场景
缓解措施
采用Kneser-Ney语言模型和fastText分类器进行数据过滤
潜在危害
可能生成有害/偏见/错误信息(幻觉现象)
应用警示
需进行风险评估后方可用于下游场景,包括但不限于:错误信息生成/有害内容生成等风险