推理: false
许可证: other
llama-13b-hf
权重文件被分割为650MB大小的块,以便快速并行下载
这是yahma/llama-13b-hf的650MB分块权重版本。
原始模型卡片如下
LLaMA-13B已转换为适用于2023年4月8日的Transformers/HuggingFace最新版本。此版本应解决EOS令牌问题。
此模型受特殊许可证约束,详情请参阅LICENSE文件。
此仓库包含LLaMA-7b模型的权重。该模型受非商业许可证约束(见LICENSE文件)。
仅当您已通过填写此表单获得模型访问权限,但丢失了权重副本或在将其转换为Transformers格式时遇到问题时,才应使用此仓库。
--
许可证: other
LLaMA模型卡片
模型详情
开发组织
Meta AI的FAIR团队。
模型日期
LLaMA在2022年12月至2023年2月期间训练。
模型版本
此为版本1。
模型类型
LLaMA是一种基于Transformer架构的自回归语言模型,提供不同参数规模:7B、13B、33B和65B。
论文或更多信息
更多信息请参阅论文《LLaMA:开放高效的基础语言模型》,链接:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/。
引用详情
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证
非商业定制许可证
问题或意见反馈
关于LLaMA的问题或意见可通过项目GitHub仓库提交issue。
预期用途
主要用途
LLaMA主要用于大语言模型研究,包括:
探索潜在应用(如问答、自然语言理解或阅读理解);
理解当前语言模型的能力与局限,并开发改进技术;
评估和缓解偏见、风险、有害内容生成及幻觉问题。
主要用户
目标用户为自然语言处理、机器学习和人工智能领域的研究人员。
非适用范围
LLaMA是基础模型,未经进一步风险评估和缓解措施前,不应直接用于下游应用。特别是,该模型未经过人类反馈训练,可能生成有毒、冒犯性内容、错误信息或无帮助的回答。
影响因素
相关因素
模型性能差异的最重要因素是语言。尽管训练数据包含20种语言,但大部分为英语文本,因此预期英语表现优于其他语言。类似地,研究表明不同方言性能可能不同,本模型亦如此。
评估因素
由于模型训练数据来自网络,预期会反映其中的偏见。我们通过RAI数据集评估了性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位等方面的偏见,并测量了生成内容的毒性。
指标
模型性能指标
使用以下指标评估模型:
- 常识推理、阅读理解、自然语言理解(MMLU)、BIG-bench hard、WinoGender和CrowS-Pairs的准确率;
- 问答的精确匹配;
- RealToxicityPrompts的Perspective API毒性评分。
决策阈值
不适用。
不确定性与变异性处理
由于训练大语言模型的高计算需求,每个规模仅训练一个模型,因此无法评估预训练的变异性。
评估数据集
模型在以下基准测试中评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
训练数据集
训练数据来源:CCNet [67%]、C4 [15%]、GitHub [4.5%]、维基百科 [4.5%]、书籍 [4.5%]、ArXiv [2.5%]、Stack Exchange [2%]。维基百科和书籍数据包含以下语言:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。详情见论文。
定量分析
模型架构超参数
LLaMA | 模型超参数 |
参数量 | 维度 | 头数 | 层数 | 学习率 | 批大小 | 令牌数 |
7B | 4096 | 32 | 32 | 3.0E-04 | 4M | 1T
|
13B | 5120 | 40 | 40 | 3.0E-04 | 4M | 1T
|
33B | 6656 | 52 | 60 | 1.5.E-04 | 4M | 1.4T
|
65B | 8192 | 64 | 80 | 1.5.E-04 | 4M | 1.4T
|
*表1 - LLaMA模型超参数汇总*
下表展示模型在八个常识推理基准上的表现:
LLaMA | 推理任务 |
参数量 | BoolQ | PIQA | SIQA | HellaSwag | WinoGrande | ARC-e | ARC-c | OBQA | COPA |
7B | 76.5 | 79.8 | 48.9 | 76.1 | 70.1 | 76.7 | 47.6 | 57.2 | 93
|
13B | 78.1 | 80.1 | 50.4 | 79.2 | 73 | 78.1 | 52.7 | 56.4 | 94
|
---|
33B | 83.1 | 82.3 | 50.4 | 82.8 | 76 | 81.4 | 57.8 | 58.6 | 92
|
---|
65B | 85.3 | 82.8 | 52.3 | 84.2 | 77 | 81.5 | 56 | 60.2 | 94 |
*表2 - LLaMA模型在推理任务上的表现汇总*
下表展示模型偏见评估结果(数值越低表示偏见越小):
编号 |
类别 |
FAIR LLM |
1 |
性别 |
70.6 |
2 |
宗教 |
79 |
3 |
种族/肤色 |
57 |
4 |
性取向 |
81 |
5 |
年龄 |
70.1 |
6 |
国籍 |
64.2 |
7 |
残疾 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社会经济地位 |
71.5 |
|
LLaMA平均 |
66.6 |
表3 - 模型输出偏见汇总
伦理考量
数据
训练数据来自网络,包含冒犯性、有害和偏见内容,因此模型可能反映这些偏见。
人类生活
该模型不应用于影响人类生活核心问题的决策。
缓解措施
我们基于与维基百科文本的相似性过滤了网络数据,使用了Kneser-Ney语言模型和fastText线性分类器。
风险与危害
大语言模型的风险包括生成有害、冒犯或偏见内容,以及产生错误信息(幻觉)。本模型亦不例外。
使用场景
LLaMA是基础模型,未经进一步风险调查和缓解措施前,不应直接用于下游应用。潜在风险包括但不限于:生成错误信息和有害、偏见或冒犯性内容。