许可证:llama3.1
语言:
- 希腊语
- 英语
任务标签:文本生成
库名称:transformers
标签:
- 文本生成推理
Llama-Krikri-8B-Base:面向希腊语的大型基础语言模型
继2024年3月26日发布Meltemi-7B后,我们很高兴为ILSP开源希腊语大模型家族再添新成员Krikri。
Krikri基于Llama-3.1-8B构建,通过对高质量本地相关希腊语文本的持续预训练扩展其希腊语能力。我们推出Llama-Krikri-8B-Base基础版及指令微调版Llama-Krikri-8B-Instruct。

模型信息
- 扩展Llama-3.1分词器以支持希腊语词汇
- 128k上下文长度(约80,000希腊单词)
- 通过大规模训练语料库扩展Llama-3.1-8B的预训练,增强希腊语能力:
- 包含567亿希腊语单语token,源自公开资源
- 为防止灾难性遗忘并确保双语能力,额外添加210亿英语单语token和55亿希腊语-英语平行token
- 训练语料还包含78亿数学与代码token
- 语料经过清洗、过滤和去重处理,具体构成如下:
子语料库 |
token数量 |
占比 |
希腊语 |
567亿 |
62.3% |
英语 |
210亿 |
23.1% |
平行语料 |
55亿 |
6.0% |
数学/代码 |
78亿 |
8.6% |
总计 |
910亿 |
100% |
对910亿语料进行选择性上采样后,最终训练规模达1100亿token。
使用方法
使用Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model = AutoModelForCausalLM.from_pretrained("ilsp/Llama-Krikri-8B-Base")
tokenizer = AutoTokenizer.from_pretrained("ilsp/Llama-Krikri-8B-Base")
model.to(device)
input_text = tokenizer("Ένα κρικρί διαφέρει απο ένα λάμα επειδή", return_tensors='pt').to(device)
outputs = model.generate(input_text['input_ids'], max_new_tokens=256, do_sample=True)
print(tokenizer.batch_decode(outputs)[0])
通过vLLM启动OpenAI兼容服务
vllm serve ilsp/Llama-Krikri-8B-Base \
--enforce-eager \
--dtype 'bfloat16' \
--api-key token-abc123
随后可通过Python调用:
from openai import OpenAI
api_key = "token-abc123"
base_url = "http://localhost:8000/v1"
client = OpenAI(
api_key=api_key,
base_url=base_url,
)
response = client.completions.create(model="ilsp/Llama-Krikri-8B-Base",
prompt="Η εκπαίδευση μεγάλων γλωσσικών μοντέλων περιλαμβάνει")
print(response.choices[0].text)
评估结果
Llama-Krikri-8B-Base相比Llama-3.1-8B的改进:
- 希腊语基准测试**+10.8%**
- 英语基准测试**+0.8%**
评估采用与Open LLM排行榜一致的few-shot设置,对比Llama-Krikri-8B-Base、Llama-3.1-8B和Meltemi 7B v1.5表现。
希腊语基准测试
我们构建的希腊语评估套件包含6个测试集,可通过lighteval分支运行。
评估套件包含:
持续预训练方法使希腊语测试集平均提升**+10.8%**,结果如下:
|
Medical MCQA EL (15-shot) |
Belebele EL (5-shot) |
HellaSwag EL (10-shot) |
ARC-Challenge EL (25-shot) |
TruthfulQA MC2 EL (0-shot) |
MMLU EL (5-shot) |
平均 |
Meltemi 7B v1.5 |
42.2% |
61.0% |
53.8% |
40.0% |
49.0% |
41.2% |
47.9% |
Llama-3.1-8B |
33.4% |
72.8% |
52.1% |
39.9% |
51.1% |
42.6% |
48.7% |
Llama-Krikri-8B |
53.8% |
82.7% |
64.6% |
49.4% |
54.2% |
52.0% |
59.5% |
英语基准测试
我们的训练方法不仅有效缓解灾难性遗忘,还使英语测试集平均提升**+0.8%**,结果如下:
|
Winogrande (5-shot) |
Belebele (5-shot) |
HellaSwag (10-shot) |
ARC-Challenge (25-shot) |
TruthfulQA MC2 (0-shot) |
MMLU (5-shot) |
平均 |
Meltemi 7B v1.5 |
73.4% |
77.7% |
79.6% |
54.1% |
40.5% |
56.9% |
63.7% |
Llama-3.1-8B |
74.6% |
71.5% |
82.0% |
58.5% |
44.2% |
66.2% |
66.2% |
Llama-Krikri-8B |
72.6% |
79.8% |
80.7% |
57.8% |
44.8% |
65.1% |
67.0% |
注意:所有评估均使用最新版lighteval运行,与旧版存在差异,因此Meltemi-7B-v1.5的分数与历史记录不同。
伦理考量
本模型未经过人类偏好对齐,可能生成误导性、有害或有毒内容。
致谢
ILSP团队使用亚马逊云计算服务,该服务通过GRNET在OCRE Cloud框架下为希腊学术研究界提供AWS支持。