语言:
- 英语
- 印地语
许可证: apache-2.0
标签:
- 印英混合语
- 翻译
- 英语转印英混合语
- 语言翻译
- 文本生成推理
- 转换器
- unsloth
- llama
- trl
- 英语转印地语
- 多语言
- 印地语代码混合
- 开源
基础模型: unsloth/llama-3-8b-Instruct-bnb-4bit
数据集:
- suyash2739/News_Hinglish_English

数据集
这是我精心整理并制作的数据集。
你可以在这里购买。
(https://buymeacoffee.com/suyash008/e/268592)


我的领英
领英 - [https://www.linkedin.com/in/suyash-ag/ ]
GitHub - [https://github.com/Suyash018 ]
项目 - 英语转印英混合语翻译器
本项目旨在开发一个高性能的语言翻译模型,能够将标准英语翻译成印英混合语(印度非正式交流中常用的印地语和英语混合形式)。
损失曲线

推理/如何使用模型:
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers trl peft accelerate bitsandbytes
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048
dtype = None
load_in_4bit = True
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "suyash2739/English_to_Hinglish_fintuned_lamma_3_8b_instruct",
max_seq_length = max_seq_length,
dtype = dtype,
load_in_4bit = load_in_4bit,
)
def pipe(text):
prompt = """将输入从英语翻译成印英混合语并给出响应。
### 输入:
{}
### 响应:
"""
inputs = tokenizer(
[
prompt.format(text),
], return_tensors = "pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens = 2048, use_cache = True)
raw_text = tokenizer.batch_decode(outputs)[0]
return raw_text.split("### 响应:\n")[1].split("<|eot_id|>")[0]
text = "这是一个使用Llama 3微调的印英混合语翻译模型。"
print(pipe(text))
对比
英语 = """财政部长尼尔马拉·西塔拉曼表示:"过去有贫困指数...人类发展指数,这些指数至今仍在沿用,但如今最受关注的是VIX,即市场波动指数。"她指出,政府的稳定性对市场效率至关重要。她补充说,纳伦德拉·莫迪总理的第三个任期将使市场在稳定中运行。"""
GPT-4o = """财政部长尼尔马拉·西塔拉曼说:"以前有一个贫困指数...一个人类发展指数,这些现在仍然存在,但今天最受关注的是VIX,即市场的波动指数。"她表示,政府的稳定性对市场效率至关重要。纳伦德拉·莫迪总理的第三个任期将帮助市场在稳定中运行,她补充道。"""
Llama模型 = 财政部长尼尔马拉·西塔拉曼说:"以前有一个贫困指数...一个人类发展指数,所有这一切仍在继续,但今天最受关注的是VIX,即市场波动指数。"她表示,政府的稳定性对市场至关重要。纳伦德拉·莫迪总理的第三个任期将使市场在稳定中运行,她补充道。

上传的模型
- 开发者: suyash2739
- 许可证: apache-2.0
- 微调自模型: unsloth/llama-3-8b-Instruct-bnb-4bit
这个Llama模型通过Unsloth和Huggingface的TRL库实现了2倍速的训练。
