CroissantLLMBase-GGUF开源语言模型 - 英法双语训练，消费级硬件轻松运行！

首页

Croissantllmbase GGUF

由 croissantllm 开发

CroissantLLM是一个基于3T英法双语token训练的13亿参数语言模型，专为研究和工业界设计，可在消费级硬件上流畅运行。

大型语言模型支持多种语言开源协议:MIT #英法双语 #消费级硬件适配 #法律文本生成

下载量 57

发布时间 : 2/8/2024

模型简介

CroissantLLM是一个高性能、完全开源的双语模型，采用1:1英法预训练数据配比，定制分词器和双语微调数据集训练而成。

模型特点

双语能力

采用1:1英法预训练数据配比，定制分词器和双语微调数据集训练，具备优秀的双语处理能力。

高性能

在消费级本地硬件上流畅运行，适合研究和工业应用。

开源透明

完全开源，提供代码库、多个检查点、聊天模型和翻译模型，透明度标准达标率达81%。

模型能力

文本生成

英法翻译

问答系统

使用案例

翻译

英法翻译

将英语文本翻译为法语，或反之。

高质量的双语翻译效果。

问答

知识问答

回答关于地理、历史等知识的提问。

准确回答各类知识问题。

文本生成

创意写作

生成创意文本，如故事、诗歌等。

流畅、有创意的文本输出。

🚀 CroissantLLM - Base GGUF (190k steps, Final version)

CroissantLLM是一个高性能、完全开源的双语语言模型，它在3万亿英法双语语料上进行了预训练，能够在消费级本地硬件上快速运行，为研究和工业界带来了新的选择。

🚀 快速开始

本模型为基础模型，即未针对聊天功能进行微调，采用少样本提示策略时效果最佳。你可以通过以下代码使用该模型：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "croissantllm/CroissantLLMBase"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")

inputs = tokenizer("I am so tired I could sleep right now. -> Je suis si fatigué que je pourrais m'endormir maintenant.\nHe is heading to the market. -> Il va au marché.\nWe are running on the beach. ->", return_tensors="pt").to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60, temperature=0.3)
print(tokenizer.decode(tokens[0]))

# remove bos token
inputs = tokenizer("Capitales: France -> Paris, Italie -> Rome, Allemagne -> Berlin, Espagne ->", return_tensors="pt", add_special_tokens=True).to(model.device)
tokens = model.generate(**inputs, max_length=100, do_sample=True, top_p=0.95, top_k=60)
print(tokenizer.decode(tokens[0]))

✨ 主要特性

双语能力：开创性地采用英法1:1的预训练数据比例、自定义分词器和双语微调数据集来训练本质上的双语模型。
高质量数据：发布的训练数据集包含手动策划、高质量且多样的法语数据来源。
性能评估：创建了新的基准测试FrenchBench，用于评估模型在法语中的各种分类和生成任务的性能。
高度透明：发布了代码库、不同模型大小、训练数据分布和训练步骤的数十个检查点，以及微调后的聊天模型和强大的翻译模型。通过FMTI框架评估，验证了81%的透明度标准，远超大多数开源项目。

📦 相关资源

模型体验：若要体验最终模型，建议使用聊天版本：CroissantLLMChat-v0.1
论文链接：CroissantLLM: A Truly Bilingual French-English Language Model

📚 详细文档

摘要

我们推出了CroissantLLM，这是一个13亿参数的语言模型，在3万亿英法双语语料上进行了预训练。其目标是为研究和工业界提供一个高性能、完全开源的双语模型，使其能够在消费级本地硬件上快速运行。为此，我们率先采用了英法1:1的预训练数据比例、自定义分词器和双语微调数据集来训练本质上的双语模型。我们发布了训练数据集，其中特别包含了一个手动策划、高质量且多样的法语数据来源。为了评估模型在英语之外的性能，我们创建了一个新的基准测试FrenchBench，它由一系列分类和生成任务组成，涵盖了模型在法语中性能的各个方面。此外，为了保持透明度并促进大语言模型的进一步研究，我们发布了代码库、不同模型大小、训练数据分布和训练步骤的数十个检查点，以及微调后的聊天模型和强大的翻译模型。我们通过FMTI框架对模型进行了评估，验证了81%的透明度标准，远超大多数开源项目。这项工作丰富了自然语言处理领域，打破了以往以英语为中心的研究模式，加深了我们对语言模型中多语言性的理解。

引用

如需引用我们的工作，请使用以下格式：

@misc{faysse2024croissantllm,
      title={CroissantLLM: A Truly Bilingual French-English Language Model}, 
      author={Manuel Faysse and Patrick Fernandes and Nuno M. Guerreiro and António Loison and Duarte M. Alves and Caio Corro and Nicolas Boizard and João Alves and Ricardo Rei and Pedro H. Martins and Antoni Bigata Casademunt and François Yvon and André F. T. Martins and Gautier Viaud and Céline Hudelot and Pierre Colombo},
      year={2024},
      eprint={2402.00786},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📄 许可证

本项目采用MIT许可证。

📋 模型信息

属性	详情
模型类型	文本生成模型
训练数据	cerebras/SlimPajama - 627B、uonlp/CulturaX、pg19、bigcode/starcoderdata、croissantllm/croissant_dataset
支持语言	法语、英语
任务类型	文本生成
相关标签	法律、代码、文本生成推理、艺术