许可证: 其他
标签:
llama-7b-transformers-4.29
原始权重已通过最新版transformers
使用LlamaTokenizerFast
实现完成转换。
--
许可证: 其他
LLaMA模型卡片
模型详情
开发机构
Meta AI的FAIR团队。
模型日期
LLaMA训练于2022年12月至2023年2月期间。
模型版本
此为模型的第一版。
模型类型
LLaMA是基于Transformer架构的自回归语言模型,提供不同参数规模版本:7B、13B、33B和65B。
论文或更多信息
更多信息请参阅论文《LLaMA:开放高效的基础语言模型》,访问地址:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
引用详情
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证
非商业定制许可
模型问题反馈
关于LLaMA的问题或意见可通过项目GitHub仓库提交issue。
预期用途
主要用途
LLaMA主要用于大语言模型研究,包括:
探索问答、自然语言理解或阅读理解等潜在应用;
理解当前语言模型的能力与局限,并开发改进技术;
评估和缓解偏见、风险、有害内容生成及幻觉问题。
目标用户
主要面向自然语言处理、机器学习和人工智能领域的研究人员。
非适用场景
LLaMA是基础模型,未经下游风险评估和缓解措施前不应直接应用。特别是本模型未经过人类反馈训练,可能生成有毒/冒犯性内容、错误信息或无帮助回答。
影响因素
关键因素
模型性能差异最显著的影响因素是语言类型。虽然训练数据包含20种语言,但以英语为主,因此英语表现预期优于其他语言。研究表明不同方言性能存在差异,本模型亦如此。
评估维度
由于训练数据来自网络,模型会反映其中的偏见。我们通过RAI数据集评估了性别、宗教、种族、性取向、年龄、国籍、残障、外貌和社会经济地位等方面的偏见表现,并测量了不同提示毒性下的生成内容毒性。
评估指标
性能指标
采用以下评估标准:
- 常识推理、阅读理解、自然语言理解(MMLU)、BIG-bench hard、WinoGender和CrowS-Pairs的准确率
- 问答任务的精确匹配率
- RealToxicityPrompts的Perspective API毒性评分
决策阈值
不适用。
不确定性与变异性处理
因训练大语言模型算力要求极高,每个规模仅训练一个模型,故无法评估预训练变异性。
评估数据集
模型在以下基准测试中评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
训练数据
训练数据来源及占比:CCNet[67%]、C4[15%]、GitHub[4.5%]、维基百科[4.5%]、书籍[4.5%]、ArXiv[2.5%]、Stack Exchange[2%]。维基百科和书籍数据包含以下语言:保加利亚语、加泰罗尼亚语、捷克语、丹麦语、德语、英语、西班牙语、法语、克罗地亚语、匈牙利语、意大利语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛文尼亚语、塞尔维亚语、瑞典语、乌克兰语。详见论文中训练集及预处理细节。
定量分析
模型架构超参数
表1 - LLaMA模型超参数总览
我们在下表展示八个常识推理基准测试结果:
表2 - LLaMA模型在推理任务中的表现总览
偏见评估结果如下(数值越低表示偏见越小):
表3 - 模型输出偏见程度总览
伦理考量
数据
训练数据来自网络多源,包含攻击性、有害和偏见内容,模型会反映这些数据偏差。
人类生活
本模型不应用于影响人类核心生活的决策场景。
缓解措施
我们基于与维基百科文本的相似性进行数据过滤,采用Kneser-Ney语言模型和fastText线性分类器。
风险与危害
大语言模型风险包括生成有害/冒犯/偏见内容,以及产生错误信息(幻觉)。本模型亦存在此类风险。
应用场景
LLaMA作为基础模型,未经风险调查和缓解前不应直接用于下游应用。潜在风险场景包括但不限于:生成错误信息、有害/偏见/冒犯性内容。