许可证: mit
数据集:
- croissantllm/croissant_dataset
- croissantllm/CroissantLLM-2201-sft
- cerebras/SlimPajama-627B
- uonlp/CulturaX
- pg19
- bigcode/starcoderdata
语言:
- 法语
- 英语
管道标签: 文本生成
标签:
- 法律
- 代码
- 文本生成推理
- 艺术
CroissantLLMChat (19万步训练+聊天微调)
该模型属于CroissantLLM计划的一部分,对应经过19万步训练(2.99T tokens)及最终聊天微调阶段的检查点。
论文链接:https://arxiv.org/abs/2402.00786
为获得最佳性能,建议使用温度参数0.3及以上,并严格遵循下方模板格式:
对话示例 = [
{"role": "user", "content": "马赛冬天有什么好玩的?"},
]
对话输入 = tokenizer.apply_chat_template(对话示例, tokenize=False, add_generation_prompt=True)
等效于:
对话输入 = """<|im_start|>用户
{用户查询}<|im_end|>
<|im_start|>助手\n"""
摘要
我们推出CroissantLLM——一个基于3T英法双语token训练的13亿参数语言模型,旨在为研究和工业界提供能在消费级硬件流畅运行的高性能全开源双语模型。我们开创性地采用1:1英法预训练数据配比、定制分词器和双语微调数据集。公开的训练数据集中包含经人工筛选的高质量多样化法语语料。
为评估非英语性能,我们构建了创新基准FrenchBench,涵盖分类与生成任务的多维度法语能力评估。基于透明原则,我们公开了代码库、不同规模/数据分布/训练步数的数十个检查点、微调聊天模型及优质翻译模型。通过FMTI框架验证,模型透明度标准达标率达81%,远超多数开源项目。
这项工作突破了以往以英语为中心的局限,通过强化对语言模型多语性的理解,丰富了NLP领域的多样性。
引用
请使用以下格式引用:
@misc{faysse2024croissantllm,
title={CroissantLLM: A Truly Bilingual French-English Language Model},
author={作者列表},
year={2024},
eprint={2402.00786},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
使用指南
本模型为聊天优化版本,建议配合指定模板使用。
生成示例
需设置<|im_end|>作为停止标记:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
模型名称 = "croissantllm/CroissantLLMChat-v0.1"
tokenizer = AutoTokenizer.from_pretrained(模型名称)
model = AutoModelForCausalLM.from_pretrained(模型名称)
生成参数 = {
"max_new_tokens": 256,
"do_sample": True,
"temperature": 0.3,
"top_p": 0.90,
"top_k": 40,
"repetition_penalty": 1.05,
"eos_token_id": [tokenizer.eos_token_id, 32000],
}
对话 = [
{"role": "user", "content": "法国现任总统是谁?"},
]
对话输入 = tokenizer.apply_chat_template(对话, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(对话输入, return_tensors="pt").to(model.device)
输出 = model.generate(**inputs, **生成参数)
print(tokenizer.decode(输出[0]))
print([(tokenizer.decode([tok]), tok) for tok in 输出[0].tolist()])
模型局限
评估显示该模型在同尺寸类别中表现优异,在写作类任务和内部知识检索上表现良好,翻译任务尤为突出。但13亿参数规模限制了其在零样本/小样本场景下完成复杂推理任务的能力,这与同类尺寸模型表现一致,印证了规模对抽象任务的重要性。
知识截止
基础模型训练数据基于2023年11月的维基百科快照,部分信息可能更早。可通过持续预训练或微调更新知识。
多语言表现
主要支持英法双语。代码能力有限,虽然训练数据包含其他语言片段,但不保证其他语言的即用性能(部分欧洲语言表现尚可)。
幻觉现象
可能生成事实性错误内容(尤其涉及复杂主题时),这在同类小模型中属普遍现象。虽未定量评估,但幻觉率似乎低于多数同尺寸模型。