CroissantLLMChat-v0.1开源语言模型 - 适合消费级硬件的英法双语流畅处理

首页

Croissantllmchat V0.1

由 croissantllm 开发

CroissantLLM是一个基于3T英法双语token训练的13亿参数语言模型，专为消费级硬件设计，支持流畅的双语处理。

大型语言模型

Transformers

支持多种语言开源协议:MIT #英法双语 #消费级硬件优化 #法律文本生成

下载量 3,812

发布时间 : 1/24/2024

模型简介

该模型是CroissantLLM计划的一部分，经过19万步训练（2.99T tokens）及最终聊天微调阶段，支持法语和英语的文本生成任务。

模型特点

双语支持

采用1:1英法预训练数据配比，专门优化了法语和英语的处理能力。

高效运行

设计用于在消费级硬件上流畅运行，适合研究和工业应用。

高质量法语语料

训练数据中包含经人工筛选的高质量多样化法语语料。

透明开源

公开了代码库、多个检查点、微调聊天模型及翻译模型，透明度标准达标率达81%。

模型能力

文本生成

双语翻译

聊天对话

代码生成

使用案例

语言处理

法语问答

回答关于法国文化、历史或时事的问题。

在写作类任务和内部知识检索上表现良好。

英法翻译

进行英语和法语之间的翻译任务。

翻译任务表现尤为突出。

代码辅助

代码生成

生成简单的代码片段。

代码能力有限，适合基础代码生成。

🚀 羊角面包大语言模型聊天版（190k步 + 聊天功能）

本模型是羊角面包大语言模型（CroissantLLM）计划的一部分，对应于190k步（2.99万亿）标记后的检查点，以及最后的聊天微调阶段。

✨ 主要特性

我们推出了羊角面包大语言模型（CroissantLLM），这是一个基于3万亿英语和法语标记进行预训练的13亿参数语言模型，旨在为研究和工业界带来一个高性能、完全开源的双语模型，该模型可在消费级本地硬件上快速运行。为此，我们开创了一种方法，以1:1的英法预训练数据比例、自定义分词器和双语微调数据集来训练本质上的双语模型。我们发布了训练数据集，其中特别包含一个经过人工精心策划、高质量且多样化数据源的法语子集。为评估模型在英语以外的性能，我们精心设计了一个全新的基准测试——法语基准测试（FrenchBench），它由一系列分类和生成任务组成，涵盖了模型在法语方面性能的各个不同方面。此外，基于透明度原则并为了促进大语言模型的进一步研究，我们发布了代码库、数十个不同模型大小、训练数据分布和训练步骤的检查点，以及微调后的聊天模型和强大的翻译模型。我们通过FMTI框架评估了我们的模型，并验证了81%的透明度标准，远远超过了即使是大多数开源项目的得分。这项工作丰富了自然语言处理领域，摆脱了以往以英语为中心的研究，从而加深了我们对语言模型中多语言能力的理解。

🚀 快速开始

本模型是一个聊天模型，即针对聊天功能进行了微调，使用提供的模板时效果最佳。

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "croissantllm/CroissantLLMChat-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

generation_args = {
    "max_new_tokens": 256,
    "do_sample": True,
    "temperature": 0.3,
    "top_p": 0.90,
    "top_k": 40,
    "repetition_penalty": 1.05,
    "eos_token_id": [tokenizer.eos_token_id, 32000],
}

chat = [
   {"role": "user", "content": "Qui est le président francais actuel ?"},
]

chat_input = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

inputs = tokenizer(chat_input, return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, **generation_args)

print(tokenizer.decode(tokens[0]))
# print tokens individually
print([(tokenizer.decode([tok]), tok) for tok in tokens[0].tolist()])

🔧 技术细节

模型局限性

评估结果表明，该模型在同规模模型中表现出色，在基于写作的任务和内部知识方面表现良好，在翻译任务中表现非常出色。然而，羊角面包大语言模型的小尺寸限制了其执行更复杂推理任务的能力，至少在其通用基础版本或聊天模型版本的零样本或少样本情况下是如此。这与其他同规模模型一致，凸显了在更抽象任务中模型规模的重要性。

知识截止日期

模型训练数据集的数据截止日期对应于2023年11月的维基百科转储。这实际上是我们基础模型的知识截止日期，尽管许多信息的日期更早。可以通过持续预训练或后续微调来训练更新版本。

多语言性能

羊角面包大语言模型主要是一个法语和英语模型。代码生成性能相对有限，尽管SlimPajama训练集中包含了一些其他语言的数据，但不能期望该模型在其他语言上开箱即用的性能，不过一些欧洲语言的表现确实相当不错。

幻觉问题

羊角面包大语言模型可能会产生幻觉并输出事实错误的数据，尤其是在处理复杂主题时。考虑到模型规模较小，这是可以预料的，并且尽管除了MT-Bench实验外没有进行其他定量评估，但幻觉率似乎低于大多数同规模模型。

📄 许可证

本模型采用MIT许可证。

📦 数据集

croissantllm/croissant_dataset
croissantllm/CroissantLLM - 2201 - sft
cerebras/SlimPajama - 627B
uonlp/CulturaX
pg19
bigcode/starcoderdata

📚 引用

我们的工作可以按以下方式引用：

@misc{faysse2024croissantllm,
      title={CroissantLLM: A Truly Bilingual French-English Language Model}, 
      author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
      year={2024},
      eprint={2402.00786},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}