license: apache-2.0
language:
- 阿拉伯语
- 孟加拉语
- 捷克语
- 德语
- 英语
- 西班牙语
- 波斯语
- 法语
- 希伯来语
- 印地语
- 印尼语
- 意大利语
- 日语
- 高棉语
- 韩语
- 老挝语
- 马来语
- 缅甸语
- 荷兰语
- 波兰语
- 葡萄牙语
- 俄语
- 泰语
- 他加禄语
- 土耳其语
- 乌尔都语
- 越南语
- 中文
base_model:
- ModelSpace/GemmaX2-28-2B-v0.1
pipeline_tag: translation
library_name: transformers
tags:
- gemma
- 机器翻译
- 多语言
- 量化
GemmaX2-28-2B GGUF量化模型卡
模型概述
GemmaX2-28-2B GGUF量化模型是小米开发的GemmaX2-28-2B-v0.1
翻译大语言模型的量化版本集合。原始模型基于GemmaX2-28-2B-Pretrain
微调而来,后者又是对Gemma2-2B
使用28种语言共560亿token的多样化数据集进行持续预训练的产物。这些GGUF版本(f16
、bf16
、q8_0
、tq1_0
、tq2_0
)旨在优化模型在资源受限环境中的推理效率,同时保持翻译能力。
- 开发方:小米(原始模型);Tonic(量化版本)
- 模型类型:基于Transformer的语言模型,专为翻译微调,量化至GGUF格式
- 量化格式:
f16
(16位浮点)、bf16
(bfloat16)、q8_0
(8位量化)、tq1_0
(三元量化1)、tq2_0
(三元量化2)
- 支持语言:阿拉伯语、孟加拉语、捷克语、德语、英语、西班牙语、波斯语、法语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、缅甸语、荷兰语、波兰语、葡萄牙语、俄语、泰语、他加禄语、土耳其语、乌尔都语、越南语、中文
- 许可证:[Apache 2.0]
- 代码库:Tonic/GemmaX2-28-2B-gguf
模型描述
GemmaX2-28-2B-v0.1
是专为多语言机器翻译设计的模型,基于在28种语言单语/平行语料(560亿token)上预训练的GemmaX2-28-2B-Pretrain
构建。微调过程使用了小规模高质量翻译指令数据来提升性能。这些GGUF量化版本通过convert_hf_to_gguf.py
工具转换原始Hugging Face模型生成,兼容llama.cpp
等工具以实现高效部署。
量化细节
- 源模型:
ModelSpace/GemmaX2-28-2B-v0.1
- 转换工具:
convert_hf_to_gguf.py
- 量化类型:
f16
:16位浮点,精度损失最小,文件较大(约5-7GB)
bf16
:16位脑浮点,针对特定硬件(如TPU)优化,大小与f16
相近
q8_0
:8位量化,体积减小(约3-4GB),精度略有降低
tq1_0
:三元1位量化,体积最小(约1-2GB),精度损失较大
tq2_0
:三元2位量化变体,体积略大于tq1_0
,平衡尺寸与质量
使用场景
这些量化模型适用于:
- 多语言翻译:在28种支持语言间进行文本翻译
- 高效推理:通过GGUF兼容框架(如
llama.cpp
)在边缘设备、低内存系统或计算资源受限环境中部署
- 研究:研究量化级别与翻译性能之间的权衡关系
典型用例
- 实时翻译应用
- 移动设备或嵌入式系统的离线翻译
- 多语言场景下的量化大模型性能基准测试
模型性能
原始GemmaX2-28-2B-v0.1
模型的性能详见论文《实用规模开放大语言模型的多语言机器翻译实证研究》。量化会带来不同程度的性能折衷:
f16
与bf16
:与原始模型精度几乎一致,退化极小
q8_0
:翻译质量轻微下降,仍适合多数实际应用
tq1_0
与tq2_0
:质量损失较明显,最适用于优先考虑速度和体积的场景
具体指标取决于下游任务和数据集,建议用户根据自身用例评估性能。
使用方法
使用Transformers(原始模型)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "将以下中文翻译为英文:\n中文: 我爱机器翻译\n英文:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
使用GGUF(量化模型)
从Tonic/GemmaX2-28-2B-gguf
下载GGUF文件,配合llama.cpp
等兼容工具使用:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
./main -m gemmax2-28-2b-q8_0.gguf -p "将中文翻译为英文:我爱机器翻译"
可用文件:
gemmax2-28-2b-f16.gguf
gemmax2-28-2b-bf16.gguf
gemmax2-28-2b-q8_0.gguf
gemmax2-28-2b-tq1_0.gguf
gemmax2-28-2b-tq2_0.gguf
局限性
- 语言支持:仅支持上述28种语言,其他语言性能无法保证
- 量化折衷:低位量化(
tq1_0
、tq2_0
)可能降低翻译质量,对复杂句子或稀有语言对尤甚
- 硬件兼容性:
bf16
需特定硬件支持(如NVIDIA安培GPU、TPU),否则性能可能参差
- 未来改进:原始作者计划增强
GemmaX2-28-2B
的翻译能力,量化版本需等待后续更新
引用
原始模型引用:
@misc{cui2025multilingualmachinetranslationopen,
title={实用规模开放大语言模型的多语言机器翻译实证研究},
author={崔梦龙 and 高鹏志 and 刘伟 and 栾健 and 王斌},
year={2025},
eprint={2502.02481},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02481},
}
量化版本请同时引用:
联系
原始模型问题请参考小米论文。GGUF量化问题请联系Tonic,通过Hugging Face讨论区Tonic/GemmaX2-28-2B-gguf
。