开源LLaMA-13B基础语言模型 - 免费助力大语言模型研究探索

首页

Llama 13b Hf

由 sharpbai 开发

LLaMA-13B是Meta AI开发的基础语言模型，拥有130亿参数，基于Transformer架构，适用于大语言模型研究。

大型语言模型

Transformers

开源协议:其他 #大语言模型研究 #多语言支持 #非商业授权

下载量 53

发布时间 : 6/20/2023

模型简介

LLaMA-13B是一种高效的自回归语言模型，主要用于自然语言处理研究，包括问答、自然语言理解和阅读理解等任务。

模型特点

高效训练

使用优化的Transformer架构和高效的训练方法，在相对较少的计算资源下实现高性能。

多语言支持

支持包括英语、西班牙语、法语等多种语言，尽管英语性能最优。

研究导向

专为语言模型研究设计，适合探索模型能力、局限性和改进技术。

模型能力

文本生成

问答系统

自然语言理解

阅读理解

常识推理

使用案例

学术研究

语言模型能力评估

用于评估模型在不同语言任务上的表现，如常识推理和阅读理解。

在BoolQ、PIQA等基准测试中表现优异。

偏见研究

研究模型输出中的偏见问题，如性别、宗教等领域的偏见。

在WinoGender和CrowS-Pairs等数据集上进行了评估。

技术开发

模型改进技术

作为基础模型，用于开发和测试新的模型改进技术。

🚀 llama-13b-hf

该权重文件被分割成大小为650MB的块，便于快速并行下载

这是 yahma/llama-13b-hf 的650M分割权重版本。

原始模型卡片如下：

🚀 快速开始

LLaMA-13B 于2023年4月8日转换为可与git head Transformers/HuggingFace配合使用的版本。此版本应能解决EOS令牌问题。

此模型遵循特殊许可证，请查看 LICENSE 文件以获取详细信息。

该仓库包含LLaMA-7b模型的权重。此模型遵循非商业许可证（请查看 LICENSE 文件）。只有当你通过填写此表单获得了模型访问权限，但丢失了权重副本或在将其转换为Transformers格式时遇到问题，才应使用此仓库。

📚 详细文档

LLaMA模型卡片

模型详情

属性	详情
开发模型的组织	Meta AI的FAIR团队
模型日期	LLaMA于2022年12月至2023年2月期间进行训练
模型版本	这是模型的第1版
模型类型	LLaMA是一种基于Transformer架构的自回归语言模型。该模型有不同的规模：7B、13B、33B和65B参数
更多信息的论文或资源	更多信息可在论文 “LLaMA, Open and Efficient Foundation Language Models” 中找到，链接为 https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
引用详情	https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证	非商业定制许可证
发送关于模型的问题或评论的地址	关于LLaMA的问题和评论可以通过项目的 GitHub仓库提交issue来发送

预期用途

主要预期用途

LLaMA的主要用途是进行大语言模型的研究，包括：

探索潜在应用，如问答、自然语言理解或阅读理解
了解当前语言模型的能力和局限性，并开发改进这些能力的技术
评估和减轻偏差、风险、有毒和有害内容生成、幻觉等问题

主要预期用户

该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员。

超出范围的用例

LLaMA是一个基础模型。因此，在没有进一步的风险评估和缓解措施的情况下，不应将其用于下游应用。特别是，我们的模型没有经过人类反馈训练，因此可能会生成有毒或冒犯性内容、不正确的信息或通常无用的答案。

影响因素

评估因素

由于我们的模型是在来自网络的数据上进行训练的，我们预计它会反映出该来源的偏差。因此，我们在RAI数据集上进行了评估，以衡量模型在性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位方面表现出的偏差。我们还根据用于提示模型的上下文的毒性来衡量模型生成内容的毒性。

评估指标

模型性能指标

我们使用以下指标来评估模型：

常识推理、阅读理解、自然语言理解（MMLU）、BIG-bench hard、WinoGender和CrowS-Pairs的准确率
问答的完全匹配率
RealToxicityPrompts上来自Perspective API的毒性得分

决策阈值

不适用。

处理不确定性和可变性的方法

由于训练大语言模型的计算要求很高，我们每种规模只训练了一个模型，因此无法评估预训练的可变性。

评估数据集

该模型在以下基准测试中进行了评估：BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。

训练数据集

该模型使用以下数据源进行训练：CCNet [67%]、C4 [15%]、GitHub [4.5%]、Wikipedia [4.5%]、Books [4.5%]、ArXiv [2.5%]、Stack Exchange[2%]。Wikipedia和Books领域包括以下语言的数据：bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。有关训练集和相应预处理的更多详细信息，请参阅论文。