许可证:llama3.1
语言:
- 希腊语
- 英语
任务标签:文本生成
库名称:transformers
标签:
- 文本生成推理
基础模型:
- ilsp/Llama-Krikri-8B-Instruct
🚨 请使用官方量化版本 🚨
🚨 由于我们已更新模型权重,无法保证您使用的第三方量化版本为最新改进版 🚨
Llama-Krikri-8B-Instruct:面向希腊语的指令调优大语言模型
继2024年3月26日发布Meltemi-7B后,我们很高兴迎来ILSP开源希腊语大模型家族的新成员Krikri。
Krikri基于Llama-3.1-8B构建,通过对大量高质量本土希腊语文本的持续预训练扩展其希腊语能力。我们推出Llama-Krikri-8B-Instruct及基础模型Llama-Krikri-8B-Base。
模型信息
基础模型
- 扩展Llama-3.1分词器希腊语词表
- 128k上下文长度(约8万希腊语单词)
- 通过大规模训练语料扩展Llama-3.1-8B预训练以增强希腊语能力:
- 包含567亿希腊语单语token,源自公开资源
- 为防止灾难性遗忘并确保双语能力,额外使用210亿英语单语token和55亿希腊语-英语平行语料
- 训练语料还包含78亿数学与代码token
- 语料经过清洗、过滤和去重处理,具体构成如下:
子语料 |
token数量 |
占比 |
希腊语 |
567亿 |
62.3% |
英语 |
210亿 |
23.1% |
平行语料 |
55亿 |
6.0% |
数学/代码 |
78亿 |
8.6% |
总计 |
910亿 |
100% |
通过上采样部分语料,最终训练规模达1100亿token。
指令模型
Llama-Krikri-8B-Instruct经后训练获得,具备:
- 希腊语/英语对话与指令跟随能力
- 希腊语与英/法/德/意/葡/西语双向文档翻译
- 在生成、理解、编辑任务(如摘要、创作、文本修改、实体识别、情感分析等)表现优异
- 法律、金融、医疗、科学等专业领域能力
- 支持128k上下文的检索增强生成(RAG)
- 改进的代码与工具使用格式
- 结构化数据转换(XML/JSON等)
- 分析思维与思维链(CoT)推理
后训练方法
采用多阶段流程:
- 两阶段监督微调(希腊语/英语指令-响应对及多轮对话)
- 阶段1:856,946对(371,379希腊语+485,567英语)
- 阶段2:638,408对(279,948希腊语+358,460英语)
- 基于偏好三元组(指令-优选响应-劣选响应)对齐
- 长度归一化DPO:92,394组(47,132希腊语+45,262英语)
训练数据构建
采用多种方法构建SFT&DPO数据:
- 整合高质量数据集(Tulu 3、SmolTalk、MAGPIE Ultra等)
- 使用自研工具翻译数据
- 对比翻译与再生响应构建偏好三元组
- 通过MAGPIE方法蒸馏Gemma 2 27B IT等希腊语强模型
- 使用Skywork Reward模型评分并规则过滤
- 基于ELRC-SHARE平行语料创建翻译数据
- 从维基百科、EUR-LEX等源合成问答对与多轮对话
使用指南
Transformers调用
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("ilsp/Llama-Krikri-8B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Llama-Krikri-8B-Instruct")
system_prompt = "你是Krikri,一个由雅典娜研究中心开发的希腊语AI模型。"
user_prompt = "Krikri和Llama有什么区别?"
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_prompt},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False)
outputs = model.generate(tokenizer(prompt, return_tensors='pt').to(device), max_new_tokens=256)
print(tokenizer.decode(outputs[0]))
vLLM OpenAI兼容服务
vllm serve ilsp/Llama-Krikri-8B-Instruct \
--enforce-eager \
--dtype 'bfloat16' \
--api-key token-abc123
Python调用示例:
from openai import OpenAI
client = OpenAI(api_key="token-abc123", base_url="http://localhost:8000/v1")
response = client.chat.completions.create(
model="ilsp/Llama-Krikri-8B-Instruct",
messages=[
{"role": "system", "content": "你是一个仅返回Python列表的翻译系统"},
{"role": "user", "content": "翻译以下列表为希腊语:['义务伦理','后现代伦理'...]"}
],
temperature=0.0
)
print(response.choices[0].message.content)
评估
核心指标
模型 |
希腊IFEval |
英语IFEval |
希腊MT-Bench |
英语MT-Bench |
Qwen 2.5 7B Instruct |
46.2% |
74.8% |
5.83 |
7.87 |
Llama-Krikri-8B |
67.5% |
82.4% |
7.96 |
7.21 |
- 希腊IFEval表现超越Llama-3.1-8B达+21.7%
- 希腊MT-Bench得分超越Aya Expanse 8B(+0.28)
Arena-Hard自动评估

- 无样式控制:超越8倍体积模型(如Llama-3.1-70B)
- 有样式控制:媲美闭源模型(GPT-4o-Mini)

- 英语表现较Llama-3.1-8B提升+24.5%/+16%
🚨 后训练方法与评估详情即将发布 🚨
致谢
ILSP团队使用GRNET通过OCRE Cloud框架提供的亚马逊云服务。