🚀 邦文罗马字转孟加拉文音译模型
本模型旨在将邦文罗马字(用罗马字母书写的孟加拉语)音译为孟加拉文字符。它基于facebook/mbart-large-50-many-to-many-mmt模型,使用SKNahin/bengali-transliteration-data数据集进行微调。
🚀 快速开始
示例代码
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
model = MBartForConditionalGeneration.from_pretrained("your-username/banglish-to-bangla-mbart")
tokenizer = MBart50TokenizerFast.from_pretrained("your-username/banglish-to-bangla-mbart")
def translate(text):
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=64)
outputs = model.generate(inputs.input_ids, max_length=64, num_beams=5, early_stopping=True)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
print(translate("ami tomake valobashi"))
✨ 主要特性
- 能够将邦文罗马字文本音译为孟加拉文字符,适用于社交媒体、消息传递和正式交流。
- 可用于孟加拉语与其他语言之间翻译任务的微调。
- 可以集成到聊天机器人或虚拟助理中。
📦 安装指南
文档未提供安装步骤,故跳过该章节。
💻 使用示例
基础用法
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
model = MBartForConditionalGeneration.from_pretrained("your-username/banglish-to-bangla-mbart")
tokenizer = MBart50TokenizerFast.from_pretrained("your-username/banglish-to-bangla-mbart")
def translate(text):
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=64)
outputs = model.generate(inputs.input_ids, max_length=64, num_beams=5, early_stopping=True)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
print(translate("ami tomake valobashi"))
高级用法
文档未提供高级用法示例,故跳过该部分。
📚 详细文档
模型详情
模型描述
本模型专为将邦文罗马字(用罗马字母书写的孟加拉语)音译为孟加拉文字符而设计。它基于facebook/mbart-large-50-many-to-many-mmt模型,使用SKNahin/bengali-transliteration-data数据集进行微调。
属性 |
详情 |
开发者 |
Md. Farhan Masud Shohag |
模型类型 |
序列到序列(翻译) |
语言 |
邦文罗马字 → 孟加拉语(bn_BD) |
许可证 |
Apache 2.0 |
微调基础模型 |
facebook/mbart-large-50-many-to-many-mmt |
模型来源
使用场景
直接使用
- 将邦文罗马字文本音译为孟加拉文字符,用于社交媒体、消息传递和正式交流。
下游使用
- 用于孟加拉语与其他语言之间翻译任务的微调。
- 集成到聊天机器人或虚拟助理中。
非适用场景
- 不适合无关语言之间的通用语言翻译。
- 无法有效处理混合语言输入(例如,邦文罗马字 + 英语组合)。
偏差、风险和局限性
偏差
- 数据集可能包含非正式短语,可能会降低在正式语言上的性能。
- 对于长句或复杂句子,性能可能会下降。
局限性
- 对于罕见短语或俚语,模型性能可能会有所不同。
- 无法有效支持混合语言输入。
建议
用户应针对特定用例评估输出,特别是在正式环境中。可能需要额外的过滤或预处理。
🔧 技术细节
文档未提供技术实现细节,故跳过该章节。
📄 许可证
本模型使用的许可证为 Apache 2.0。