模型简介
模型特点
模型能力
使用案例
🚀 GemmaX2-28-2B GGUF量化模型卡
GemmaX2-28-2B GGUF量化模型是基于小米开发的大语言模型翻译模型GemmaX2-28-2B-v0.1
的一组量化变体。该模型可用于28种语言的翻译任务,通过量化处理,能在资源受限的环境中高效推理,同时保留翻译能力。
🚀 快速开始
使用Transformers库(原始模型)
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我爱机器翻译\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
使用GGUF(量化模型)
从Tonic/GemmaX2-28-2B-gguf
下载GGUF文件,并使用与GGUF兼容的推理工具(如llama.cpp
):
# Example with llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
# Run inference with q8_0 model
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我爱机器翻译\nEnglish:"
可用文件:
gemmax2-28-2b-f16.gguf
gemmax2-28-2b-bf16.gguf
gemmax2-28-2b-q8_0.gguf
gemmax2-28-2b-tq1_0.gguf
gemmax2-28-2b-tq2_0.gguf
✨ 主要特性
- 多语言支持:支持阿拉伯语、孟加拉语、捷克语、德语、英语、西班牙语等28种语言的翻译。
- 量化优化:提供多种量化格式(
f16
、bf16
、q8_0
、tq1_0
、tq2_0
),可在资源受限的环境中高效推理。 - 高性能:在翻译任务中表现出色,ROUGE指标达到0.6230,BLEU指标达到0.6358。
📦 安装指南
文档中未提及具体安装步骤,可参考上述快速开始部分的代码示例进行使用。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "Translate this from Chinese to English:\nChinese: 我爱机器翻译\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
高级用法
# Example with llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
# Run inference with q8_0 model
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我爱机器翻译\nEnglish:"
📚 详细文档
模型概述
GemmaX2-28-2B GGUF量化模型是GemmaX2-28-2B-v0.1
的一组量化变体。原始模型基于GemmaX2-28-2B-Pretrain
进行微调,该预训练模型使用了包含28种语言的560亿个标记的多样化数据集进行持续预训练。这些GGUF版本(f16
、bf16
、q8_0
、tq1_0
、tq2_0
)旨在优化模型,使其在资源受限的环境中进行高效推理,同时保留翻译能力。
- 开发者:小米(原始模型);Tonic(量化处理)
- 模型类型:基于Transformer的语言模型,针对翻译任务进行微调,并量化为GGUF格式
- 量化格式:
f16
(16位浮点数)、bf16
(脑浮点16位)、q8_0
(8位量化)、tq1_0
(三元量化1)、tq2_0
(三元量化2) - 支持语言:阿拉伯语、孟加拉语、捷克语、德语、英语、西班牙语、波斯语、法语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、缅甸语、荷兰语、波兰语、葡萄牙语、俄语、泰语、他加禄语、土耳其语、乌尔都语、越南语、中文
- 许可证:[Apache 2.0]
- 仓库地址:Tonic/GemmaX2-28-2B-gguf
模型描述
GemmaX2-28-2B-v0.1
专为多语言机器翻译而设计,基于GemmaX2-28-2B-Pretrain
构建,该预训练模型在包含28种语言的单语和并行数据(560亿个标记)上进行了预训练。微调过程使用了一小部分高质量的翻译指令数据来提升其性能。这些GGUF量化模型使用convert_hf_to_gguf.py
生成,将原始的Hugging Face模型转换为与llama.cpp
等工具兼容的格式,以便进行高效部署。
量化细节
- 源模型:
ModelSpace/GemmaX2-28-2B-v0.1
- 转换工具:
convert_hf_to_gguf.py
- 量化类型:
f16
:16位浮点数,精度损失最小,文件大小较大(约5 - 7GB)。bf16
:脑浮点16位,针对某些硬件(如TPU)进行了优化,大小与f16
相似。q8_0
:8位量化,文件大小减小(约3 - 4GB),精度略有损失。tq1_0
:三元量化(1位),文件大小最小(约1 - 2GB),精度损失较大。tq2_0
:三元量化(2位变体),比tq1_0
略大,在大小和质量之间取得平衡。
预期用途
这些量化模型适用于以下场景:
- 多语言翻译:在28种支持的语言之间进行文本翻译。
- 高效推理:使用与GGUF兼容的框架(如
llama.cpp
),在边缘设备、低内存系统或计算资源有限的环境中进行部署。 - 研究:研究量化级别与翻译性能之间的权衡。
使用案例
- 实时翻译应用程序。
- 移动或嵌入式设备上的离线翻译。
- 在多语言环境中对量化大语言模型的性能进行基准测试。
模型性能
原始GemmaX2-28-2B-v0.1
模型的性能在论文Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study中有详细描述。量化会引入不同程度的性能权衡:
f16
和bf16
:与原始模型的准确性几乎相同,性能下降最小。q8_0
:翻译质量略有下降,但仍适用于大多数实际应用。tq1_0
和tq2_0
:质量损失明显,最适合优先考虑速度和大小而非精度的场景。
具体指标取决于下游任务和数据集,建议用户针对特定用例评估性能。
局限性
- 语言支持:仅支持上述28种语言,不保证在不支持的语言上的性能。
- 量化权衡:低比特量化(
tq1_0
、tq2_0
)可能会降低翻译质量,尤其是对于复杂句子或罕见语言对。 - 硬件兼容性:
bf16
需要特定的硬件支持(如NVIDIA Ampere GPU、TPU),否则性能可能会有所不同。 - 未来改进:原始作者计划提升
GemmaX2-28-2B
的翻译能力,这些量化版本可能需要更新后才能反映这些改进。
引用信息
对于原始模型:
@misc{cui2025multilingualmachinetranslationopen,
title={Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study},
author={Menglong Cui and Pengzhi Gao and Wei Liu and Jian Luan and Bin Wang},
year={2025},
eprint={2502.02481},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.02481},
}
对于这些量化版本,请同时注明:
- 量化处理:Tonic
- 仓库地址:Tonic/GemmaX2-28-2B-gguf
联系信息
有关原始模型的问题,请参考小米的相关出版物。对于GGUF量化模型的问题,请通过Hugging Face讨论区Tonic/GemmaX2-28-2B-gguf
联系Tonic。
🔧 技术细节
文档中未提供具体的技术实现细节。
📄 许可证
本模型使用[Apache 2.0]许可证。
📋 模型信息表格
属性 | 详情 |
---|---|
模型类型 | 基于Transformer的语言模型,针对翻译任务进行微调,并量化为GGUF格式 |
训练数据 | 基于GemmaX2-28-2B-Pretrain ,该预训练模型在包含28种语言的单语和并行数据(560亿个标记)上进行了预训练。微调过程使用了一小部分高质量的翻译指令数据。 |
支持语言 | 阿拉伯语、孟加拉语、捷克语、德语、英语、西班牙语、波斯语、法语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、缅甸语、荷兰语、波兰语、葡萄牙语、俄语、泰语、他加禄语、土耳其语、乌尔都语、越南语、中文 |
量化格式 | f16 (16位浮点数)、bf16 (脑浮点16位)、q8_0 (8位量化)、tq1_0 (三元量化1)、tq2_0 (三元量化2) |
许可证 | [Apache 2.0] |
仓库地址 | Tonic/GemmaX2-28-2B-gguf |



