许可证:Apache-2.0
支持语言:
标签:
基础模型:
- Qwen/Qwen2.5-1.5B
- Qwen/Qwen2.5-1.5B-Instruct
- Qwen/Qwen2.5-Coder-1.5B
- Qwen/Qwen2.5-Math-1.5B
管道标签:文本生成
库名称:transformers
🌐 WiNGPT-巴别塔
WiNGPT-巴别塔是基于大语言模型(LLM)专为翻译应用定制的模型,致力于提供便捷的多语言母语级信息体验。
与其他机器翻译模型最大的区别在于,WiNGPT-巴别塔采用"人在回路"(human-in-the-loop)的数据生产闭环策略进行训练。这使得模型更适应真实场景需求,例如新闻阅读、研究文献查阅以及观看带实时翻译字幕的视频。通过系列工具插件,模型能将内容转化为用户母语,提供更优的呈现方式。
我们的目标是运用前沿LLM技术消除语言壁垒,帮助用户更便捷地获取全球互联网信息,涵盖学术论文、社交媒体、网页内容和视频字幕等多元数据格式。虽然完全实现这一愿景仍需时日,但LLM技术的发展正使其成为可能。
✨ 核心优势
- 人在回路训练 🌱:先使用少量数据初步训练,再通过API收集工具使用日志构建新训练集。结合WiNGPT-2.6模型和奖励模型进行拒绝采样,并辅以人工审核确保质量。经多轮迭代后,模型性能将持续提升直至达标。
- 多格式兼容 📄🌐🎬:支持网页、社媒、论文、视频字幕及数据集等多种文本格式的翻译。
- 精准输出 �:基于先进LLM架构,提供准确自然、流畅地道的翻译结果。
- 高效响应 ⏱️:采用1.5B参数模型,满足实时字幕翻译等场景对速度的严苛要求。
- 广泛语言支持 🗣️:当前支持20余种语言,并持续扩展语种覆盖。
- 工具适配 🪒:已兼容沉浸式翻译、VideoLingo等实用工具。
🧪 应用场景
- 🌐 网页翻译:快速理解外文网页内容
- 📄 论文翻译:辅助阅读跨国界学术文献
- 📰 新闻编译:即时获取全球资讯动态
- 🎬 字幕翻译:无障碍观看外语视频
- 📊 数据集处理:多语言数据预处理
🔤 支持语种(持续验证中)
🇺🇸 英语↔️🇨🇳 中文 | 🇯🇵 日语→🇨🇳 中文
🚀 快速入门
WiNGPT-巴别塔选用Qwen2.5-1.5B作为基础模型,这是经过多参数规模模型测试后,在推理速度与翻译质量间取得的最佳平衡。其翻译速度在各种场景下均可媲美甚至超越谷歌翻译,这对翻译体验至关重要。以下是使用Hugging Face Transformers库的示例(推荐使用vllm/llama.cpp/ollama等推理框架):
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "WiNGPT/WiNGPT-Babel"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "system", "content": "中英互译下面的内容"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4096
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
llama.cpp推理示例:
llama-cli -m WiNGPT-Babel-Q4_K_M.gguf -co -i -if -p "<|im_start|>system\n中英互译下面的内容<|im_end|>\n" --in-prefix "<|im_start|>user\n" --in-suffix "<|im_end|>\n<|im_start|>assistant\n" -fa -ngl 80 -n 512
注意:默认系统指令仅为"中英互译下面的内容"。模型可自动识别输入语种进行互译,无需复杂指令。支持8192上下文长度,具备多轮对话能力。
🎬 场景示例
-
网页翻译
通过沉浸式翻译工具实现外文网页母语化





-
论文翻译
辅助科研人员理解外文文献


-
社媒翻译
跨语言社交内容转换

-
字幕翻译
实时生成翻译字幕文件

-
PDF翻译
学术文档双语对照处理

-
数据集翻译
多语言数据预处理

-
实时字幕
在线视频即时翻译


-
视频压字
生成硬字幕视频

提示:以上案例展示了工具链结合模型的实际应用,用户可根据需求拓展更多使用场景。
🌱 当前局限
- ⚖️ 法律/医学等专业领域术语可能存在偏差
- 🎭 文学修辞手法可能无法完美转化
- 📜 超长文本需分段处理以避免错误
- 🌍 非中英语言适配仍需优化测试
授权声明
- 本项目采用Apache License 2.0授权
- 使用模型权重时需注明出处:https://huggingface.co/winninghealth/WiNGPT-Babel
- 须遵守Qwen2.5-1.5B、沉浸式翻译、VideoLingo等相关协议
联系我们