许可证:apache-2.0
流水线标签:文本生成
支持语言:
标签:
数据集:
- cmh/alpaca_data_cleaned_fr_52k
- OpenLLM-France/Croissant-Aligned-Instruct
- Gael540/dataSet_ens_sup_fr-v1
- ai2-adapt-dev/flan_v2_converted
- teknium/OpenHermes-2.5
- allenai/tulu-3-sft-personas-math
- allenai/tulu-3-sft-personas-math-grade
- allenai/WildChat-1M
基础模型:
示例组件:
- 文本:
西班牙的首都是哪里?马德里。
法国的首都是哪里?
示例标题:法语首都问答
组别:单样本问答
训练进度:
上下文长度:32000
Lucie-7B-Instruct-v1.1模型卡
模型描述
Lucie-7B-Instruct-v1.1是基于Lucie-7B微调的多语言因果语言模型,由OpenLLM-France开发,旨在取代2025年1月发布的原始Lucie-7B-Instruct模型。该模型通过混合人工模板与ChatGPT生成的合成指令(以及少量关于OpenLLM和Lucie的自定义提示)进行微调。
需注意:
- 当前指令训练较轻量,仅使模型能生成特定类型响应(回答/摘要/列表等)
- 实际应用前需针对具体场景(如代码生成/数学解题)进一步训练
- 可能存在幻觉现象(生成虚假答案)
- 可通过DPO/RLHF等对齐方法提升性能
- 受限于7B参数量,建议结合检索增强生成(RAG)框架使用
技术规格:
- 基础模型支持32K上下文窗口
- 当前指令版本训练使用4096token序列
- 经"大海捞针"评估,实际有效上下文窗口为22K(可通过长文本微调扩展)
训练详情
训练数据
包含以下数据集:
- 法语:Alpaca-cleaned-fr(51,655条)、ENS(394条)、PIAF(1,849条)
- 英法双语:Croissant-Aligned-Instruct(20,000条)
- 英语:FLAN v2(78,580条)、OpenHermes 2.5(100万条)、WildChat法语子集(26,436条)
- 数学专项:TULU3 Personas Math系列
- 自定义提示:关于OpenLLM的英法双语硬编码提示(各240条)
预处理
通过关键词过滤剔除包含其他AI助手标识(如ChatGPT/Gemma等)的响应样本。
指令模板
采用改进版Llama 3.1聊天模板(将<|begin_of_text|>
替换为<s>
):
<s><|start_header_id|>system<|end_header_id|>
{SYSTEM}<|eot_id|><|start_header_id|>user<|end_header_id|>
{INPUT}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
{OUTPUT}<|eot_id|>
训练参数
继承基础模型架构,调整以下超参:
- 上下文长度:4096token*
- 批次大小:1024
- 学习率:3e-5→3e-6
*注:虽训练使用4096token,仍保留基础模型32K上下文处理能力
测试指南
使用Ollama测试
- 安装Ollama
- 下载GGUF量化模型
- 配置Modelfile
- 执行:
ollama create -f Modelfile Lucie
ollama run Lucie
- 交互命令:
使用vLLM测试
- 启动Docker容器(需NVIDIA GPU):
docker run --runtime nvidia --gpus=all \
-e "HUGGING_FACE_HUB_TOKEN=您的HF令牌" \
-p 8000:8000 --ipc=host \
vllm/vllm-openai:latest \
--model OpenLLM-France/Lucie-7B-Instruct-v1.1
- Python客户端调用示例:
from openai import OpenAI
client = OpenAI(base_url='http://localhost:8000/v1', api_key='empty')
response = client.chat.completions.create(
model="Lucie-7B-Instruct-v1.1",
messages=[{"role": "user", "content": "你好Lucie"}]
)
print(response.choices[0].message.content)
引用
请引用以下论文:
@misc{openllm2025lucie,
title={The Lucie-7B LLM and the Lucie Training Dataset...},
author={Olivier Gouvert et al.},
year={2025},
eprint={2503.12294},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.12294}
}
致谢
- 由LINAGORA与OpenLLM-France社区联合开发
- 使用GENCI–IDRIS超算资源(授权号2024-GC011015444)
- 特别感谢Pierre-François Lavallée(IDRIS)和Stéphane Requena(GENCI)的支持
核心贡献者(按字母序):
Olivier Gouvert, Ismaïl Harrando, Julie Hunter,
Jean-Pierre Lorré, Jérôme Louradour,
Michel-Marie Maudet, Laura Rivière
联系方式
contact@openllm-france.fr