GemmaX2-28-2B-4bit开源翻译模型 - 免费支持28种语言机器翻译

首页

Gemmax2 28 2B 4bit

由 Tonic 开发

GemmaX2-28-2B GGUF量化模型是小米开发的GemmaX2-28-2B-v0.1翻译大语言模型的量化版本集合，支持28种语言的机器翻译任务。

机器翻译

Transformers

支持多种语言开源协议:Apache-2.0 #多语言翻译 #边缘部署 #量化推理

下载量 19

发布时间 : 2/26/2025

模型简介

该模型是基于GemmaX2-28-2B-v0.1翻译大语言模型的量化版本，专为多语言机器翻译设计，优化了在资源受限环境中的推理效率。

模型特点

多语言支持

支持28种语言的机器翻译任务

高效推理

通过GGUF量化格式优化在资源受限环境中的推理效率

多种量化级别

提供f16、bf16、q8_0、tq1_0、tq2_0等多种量化级别，满足不同场景需求

模型能力

多语言文本翻译

高效边缘设备部署

量化模型推理

使用案例

实时翻译

多语言实时翻译应用

在移动设备或嵌入式系统中实现多语言实时翻译

支持28种语言间的快速翻译

离线翻译

离线翻译工具

在无网络环境下使用量化模型进行翻译

资源消耗低，适合移动设备

🚀 GemmaX2-28-2B GGUF量化模型卡

GemmaX2-28-2B GGUF量化模型是基于小米开发的大语言模型（LLM）翻译模型GemmaX2-28-2B-v0.1的量化版本。该模型支持28种语言的翻译，经过量化处理后，能在资源受限的环境中高效推理，同时保留翻译能力。

🚀 快速开始

使用Transformers（原始模型）

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "Translate this from Chinese to English:\nChinese: 我爱机器翻译\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

使用GGUF（量化模型）

从Tonic/GemmaX2-28-2B-gguf下载GGUF文件，并使用与GGUF兼容的推理工具（如llama.cpp）进行推理：

# Example with llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

# Run inference with q8_0 model
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我爱机器翻译"

可用的文件：

gemmax2-28-2b-f16.gguf
gemmax2-28-2b-bf16.gguf
gemmax2-28-2b-q8_0.gguf
gemmax2-28-2b-tq1_0.gguf
gemmax2-28-2b-tq2_0.gguf

✨ 主要特性

多语言支持：支持阿拉伯语、孟加拉语、捷克语、德语、英语、西班牙语、波斯语、法语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、缅甸语、荷兰语、波兰语、葡萄牙语、俄语、泰语、他加禄语、土耳其语、乌尔都语、越南语和中文等28种语言。
量化优化：提供多种量化格式（f16、bf16、q8_0、tq1_0、tq2_0），可在资源受限的环境中高效推理。
高效部署：可使用convert_hf_to_gguf.py将原始的Hugging Face模型转换为与llama.cpp等工具兼容的格式，便于部署。

📦 安装指南

本部分文档未提供具体安装步骤，可参考上述快速开始部分的代码示例进行安装和使用。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "ModelSpace/GemmaX2-28-2B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "Translate this from Chinese to English:\nChinese: 我爱机器翻译\nEnglish:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

高级用法

# Example with llama.cpp
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make

# Run inference with q8_0 model
./main -m gemmax2-28-2b-q8_0.gguf -p "Translate from Chinese to English: 我爱机器翻译"

📚 详细文档

模型概述

GemmaX2-28-2B GGUF量化模型是GemmaX2-28-2B-v0.1的量化版本。原始模型基于GemmaX2-28-2B-Pretrain微调而来，该预训练模型在28种语言的单语和并行数据（560亿个标记）上进行了预训练。这些GGUF版本由Tonic进行量化，旨在优化模型在资源受限环境中的推理效率，同时保留翻译能力。

模型描述

GemmaX2-28-2B-v0.1专为多语言机器翻译而设计，基于GemmaX2-28-2B-Pretrain构建。微调过程使用了一小部分高质量的翻译指令数据来提升性能。这些GGUF量化版本使用convert_hf_to_gguf.py生成，将原始的Hugging Face模型转换为与llama.cpp等工具兼容的格式，便于高效部署。

量化详情

源模型：ModelSpace/GemmaX2-28-2B-v0.1
转换工具：convert_hf_to_gguf.py
量化类型：
- f16：16位浮点数，精度损失最小，文件大小较大（约5 - 7GB）。
- bf16：脑浮点16位，针对某些硬件（如TPU）进行了优化，文件大小与f16相似。
- q8_0：8位量化，文件大小减小（约3 - 4GB），精度略有损失。
- tq1_0：三元量化（1位），文件大小最小（约1 - 2GB），精度损失较大。
- tq2_0：三元量化（2位变体），文件大小比tq1_0略大，在大小和质量之间取得平衡。

预期用途

多语言翻译：支持28种语言的文本翻译。
高效推理：可部署在边缘设备、低内存系统或计算资源有限的环境中，使用与GGUF兼容的框架（如llama.cpp）。
研究：研究量化级别与翻译性能之间的权衡。

使用案例

实时翻译应用。
移动或嵌入式设备上的离线翻译。
在多语言环境中对量化大语言模型的性能进行基准测试。

模型性能

原始GemmaX2-28-2B-v0.1模型的性能在论文Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study中有详细描述。量化会引入不同程度的性能权衡：

f16和bf16：与原始模型的准确率几乎相同，性能下降最小。
q8_0：翻译质量略有下降，但仍适用于大多数实际应用。
tq1_0和tq2_0：质量损失明显，最适合优先考虑速度和大小而非精度的场景。

具体指标取决于下游任务和数据集，建议用户根据具体用例评估性能。

局限性

语言支持：仅支持上述28种语言，不保证对未支持语言的性能。
量化权衡：低比特量化（tq1_0、tq2_0）可能会降低翻译质量，尤其是对于复杂句子或罕见语言对。
硬件兼容性：bf16需要特定的硬件支持（如NVIDIA Ampere GPU、TPU），否则性能可能会有所不同。
未来改进：原始作者计划提升GemmaX2-28-2B的翻译能力，这些量化版本可能需要更新才能反映这些改进。

🔧 技术细节

本部分文档未提供具体技术细节，可参考上述详细文档部分的内容。

📄 许可证

本模型使用[Apache 2.0]许可证。

📚 引用

对于原始模型，请使用以下引用：

@misc{cui2025multilingualmachinetranslationopen,
  title={Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study},
  author={Menglong Cui and Pengzhi Gao and Wei Liu and Jian Luan and Bin Wang},
  year={2025},
  eprint={2502.02481},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2502.02481},
}

对于这些量化版本，请同时注明：