许可证: 其他
标签:
chronos-13b-4bit
这是https://huggingface.co/elinas/chronos-13b的4位(int4)量化版本,采用true-sequential
方法和groupsize 128
参数。
该模型主要专注于聊天、角色扮演和故事创作,但也能完成其他任务,如简单推理和编码。
Chronos能生成非常长的连贯文本输出,这主要归功于其训练时使用的人类输入数据。
该模型采用Alpaca格式,为获得最佳性能,请使用以下格式:
### 指令:
在此输入您的指令或问题。
### 响应:
由@TheBloke提供的GGML版本
--
许可证: 其他
LLaMA模型卡片
模型详情
开发机构
Meta AI的FAIR团队。
模型日期
LLaMA于2022年12月至2023年2月期间训练。
模型版本
此为第1版模型。
模型类型
LLaMA是基于Transformer架构的自回归语言模型,提供不同参数规模:7B、13B、33B和65B。
更多信息
详见论文《LLaMA:开放高效的基础语言模型》,访问地址:https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
引用详情
https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证
非商业定制许可证
问题反馈
有关LLaMA的问题或意见,请通过项目GitHub仓库提交issue。
预期用途
主要用途
LLaMA主要用于大语言模型研究,包括:
探索潜在应用如问答、自然语言理解或阅读理解,
理解当前语言模型的能力与局限,并开发改进技术,
评估和减轻偏见、风险、有害内容生成及幻觉问题。
主要用户
目标用户为自然语言处理、机器学习和人工智能领域的研究人员。
非适用范围
LLaMA是基础模型,未经进一步风险评估和缓解措施前,不应直接用于下游应用。特别是本模型未经过人类反馈训练,可能生成有毒/冒犯性内容、错误信息或无帮助回答。
影响因素
相关因素
最重要的变量因素是使用语言。虽然训练数据包含20种语言,但大部分为英文文本,因此预期英文表现优于其他语言。研究显示不同方言表现可能存在差异,本模型亦同。
评估因素
由于使用网络数据训练,模型会反映数据中的偏见。我们通过RAI数据集评估了性别、宗教、种族、性取向、年龄、国籍、残疾、外貌和社会经济地位等方面的偏见表现,并测量了不同毒性提示下生成内容的毒性水平。
评估指标
性能指标
采用以下评估指标:
- 常识推理、阅读理解、自然语言理解(MMLU)、BIG-bench hard、WinoGender和CrowS-Pairs的准确率
- 问答的精确匹配率
- RealToxicityPrompts的Perspective API毒性评分
决策阈值
不适用。
不确定性与变异性
由于训练计算资源要求高,每个规模仅训练一个模型,因此无法评估预训练的变异性。
评估数据集
模型在以下基准测试中评估:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG-bench hard、GSM8k、RealToxicityPrompts、WinoGender、CrowS-Pairs。
训练数据
训练数据来源:CCNet[67%]、C4[15%]、GitHub[4.5%]、维基百科[4.5%]、书籍[4.5%]、ArXiv[2.5%]、Stack Exchange[2%]。维基百科和书籍数据包含以下语言:bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。详见论文中训练集及预处理细节。
定量分析
模型架构超参数
表1 - LLaMA模型超参数汇总
参数量 |
维度 |
头数 |
层数 |
学习率 |
批大小 |
训练token数 |
7B |
4096 |
32 |
32 |
3.0E-04 |
4M |
1T |
13B |
5120 |
40 |
40 |
3.0E-04 |
4M |
1T |
33B |
6656 |
52 |
60 |
1.5E-04 |
4M |
1.4T |
65B |
8192 |
64 |
80 |
1.5E-04 |
4M |
1.4T |
表2 - LLaMA在推理任务上的表现
参数量 |
BoolQ |
PIQA |
SIQA |
HellaSwag |
WinoGrande |
ARC-e |
ARC-c |
OBQA |
COPA |
7B |
76.5 |
79.8 |
48.9 |
76.1 |
70.1 |
76.7 |
47.6 |
57.2 |
93 |
13B |
78.1 |
80.1 |
50.4 |
79.2 |
73 |
78.1 |
52.7 |
56.4 |
94 |
33B |
83.1 |
82.3 |
50.4 |
82.8 |
76 |
81.4 |
57.8 |
58.6 |
92 |
65B |
85.3 |
82.8 |
52.3 |
84.2 |
77 |
81.5 |
56 |
60.2 |
94 |
表3 - 模型输出偏见评估(数值越低越好)
编号 |
类别 |
FAIR LLM |
1 |
性别 |
70.6 |
2 |
宗教 |
79 |
3 |
种族/肤色 |
57 |
4 |
性取向 |
81 |
5 |
年龄 |
70.1 |
6 |
国籍 |
64.2 |
7 |
残疾 |
66.7 |
8 |
外貌 |
77.8 |
9 |
社会经济地位 |
71.5 |
|
LLaMA平均 |
66.6 |
伦理考量
数据
训练数据来自网络多种来源,包含攻击性、有害和偏见内容,模型会反映这些数据偏见。
人类生活
本模型不应用于影响人类核心生活的决策。
缓解措施
我们基于与维基百科文本的相似性进行数据过滤,使用Kneser-Ney语言模型和fastText线性分类器。
风险与危害
大语言模型风险包括生成有害、冒犯或偏见内容,以及产生错误信息(幻觉)。本模型亦不例外。
使用场景
LLaMA是基础模型,未经充分风险调查和缓解前,不应直接用于下游应用。潜在风险用例包括但不限于:生成错误信息和有害/偏见/冒犯性内容。