CroissantLLMBase开源语言模型 - 免费使用英法双语高性能预训练模型

首页

Croissantllmbase

由 croissantllm 开发

CroissantLLM是一个基于3万亿英法双语token预训练的13亿参数语言模型，旨在为研究和工业社区提供高性能、完全开源的双语模型。

大型语言模型

Transformers

支持多种语言开源协议:MIT #英法双语生成 #小参数高效推理 #法律代码双领域

下载量 901

发布时间 : 1/9/2024

模型简介

CroissantLLM是一个高性能、完全开源的双语（英语和法语）语言模型，可在消费级本地硬件上流畅运行。模型采用1:1英法预训练数据比例、定制分词器以及双语微调数据集进行本质双语模型训练。

模型特点

双语支持

模型采用1:1英法预训练数据比例，专门针对英语和法语进行优化。

高性能

模型在消费级本地硬件上也能流畅运行，适合研究和工业应用。

开源透明

模型完全开源，包括代码库、检查点、微调后的聊天模型和优质翻译模型。

高质量法语数据

训练数据包含经过人工筛选、高质量且多样化的法语数据分支。

模型能力

文本生成

双语翻译

代码生成

使用案例

文本生成

双语翻译

将英语文本翻译为法语，或反之。

高质量的翻译结果，适用于日常和专业场景。

代码生成

根据提示生成代码片段。

适用于开发者和研究人员。

研究

多语言模型研究

用于研究语言模型在多语言环境下的表现。

提供丰富的双语数据和模型检查点。

🚀 CroissantLLM - 基础版 (190k步，最终版本)

CroissantLLM基础版是CroissantLLM项目的一部分，对应190k步（2.99T）标记后的检查点。该模型旨在为研究和工业界提供一个高性能、完全开源的双语模型，可在消费级本地硬件上快速运行。

若要体验最终模型，建议使用聊天版本：CroissantLLMChat-v0.1。

相关论文：https://arxiv.org/abs/2402.00786

📚 详细文档

摘要

我们推出了CroissantLLM，这是一个基于3T英语和法语标记进行预训练的13亿参数语言模型。其目标是为研究和工业界带来一个高性能、完全开源的双语模型，该模型能够在消费级本地硬件上快速运行。

为此，我们开创了一种训练内在双语模型的方法，采用1:1的英法预训练数据比例、自定义分词器和双语微调数据集。我们发布了训练数据集，其中特别包含一个经过人工精心策划、高质量且多样化数据源的法语子集。

为了评估模型在英语之外的性能，我们精心设计了一个全新的基准测试FrenchBench，它由一系列分类和生成任务组成，涵盖了模型在法语方面性能的各个不同维度。此外，基于透明度原则并为了促进大语言模型的进一步研究，我们发布了代码库、数十个不同模型大小、训练数据分布和训练步骤的检查点，以及微调后的聊天模型和强大的翻译模型。我们通过FMTI框架对模型进行评估，验证了81%的透明度标准，远远超过了即使是大多数开源项目的得分。

这项工作丰富了自然语言处理领域的研究，打破了以往以英语为中心的研究模式，有助于加深我们对语言模型中多语言性的理解。

引用

如果您使用了我们的工作，请按照以下格式进行引用：

@misc{faysse2024croissantllm,
      title={CroissantLLM: A Truly Bilingual French-English Language Model}, 
      author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
      year={2024},
      eprint={2402.00786},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

💻 使用示例

基础用法

此模型为基础模型，即未针对聊天功能进行微调，使用少样本提示策略时效果最佳。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

inputs = tokenizer("I am so tired I could sleep right now. -> Je suis si fatigué que je pourrais m'endormir maintenant.\nHe is heading to the market. -> Il va au marché.\nWe are running on the beach. ->", return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60, temperature=0.3)
print(tokenizer.decode(tokens[0]))

📄 许可证

本项目采用MIT许可证。

📊 信息表格

属性	详情
模型类型	文本生成
训练数据	cerebras/SlimPajama - 627B、uonlp/CulturaX、pg19、bigcode/starcoderdata、croissantllm/croissant_dataset
支持语言	法语、英语
标签	法律、代码、文本生成推理、艺术