许可证: mit
数据集:
- HariprasathSB/tamil_summarization
支持语言:
- 英语
- 泰米尔语
标签:
- 摘要生成
- 翻译
流水线标签: 文本到文本生成
泰米尔语摘要生成与英语-泰米尔语翻译模型
概述
本仓库包含一个经过微调的模型,可用于泰米尔语摘要生成和英语-泰米尔语翻译任务。该模型基于Hugging Face Transformers库进行微调。本说明文档提供了模型的使用方法及其功能信息。
模型详情
使用方法
安装
可通过pip安装必要的依赖项:
pip install transformers
推理
以下是使用该模型进行摘要生成和翻译任务的示例:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("Mr-Vicky-01/Finetuned_tamil_summarization")
input_text = "Be the change that you wish to see in the world."
input_ids = tokenizer.encode(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids,max_length=128)
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("翻译后的泰米尔语句子:", translated_text)
prefix = "summarize: "
tamil_article = """இது குறித்து அவர் பிபிசி தமிழிடம் கூறுகையில், "இத்தீர்ப்பை மிகச் சிறந்த முற்போக்கான தீர்ப்பாக பார்க்கிறேன்.
அடிப்படை உரிமை என்ன என்பதை மிகவும் தீவிரமாக இத்தீர்ப்பு விளக்கியுள்ளது" என்றார்.
"இந்திய அரசியலமைப்பின் 21-ஆவது விதியை மிகவும் ஆழமாக நீதிமன்றம் விளக்கியுள்ளது என்றும்,
ஏற்கனவே இரு வேறு வழக்குகளில் தனி நபர் அந்தரங்கத்தை அடிப்படை உரிமை பாதுகாக்காது எனக் குறிப்பிட்ட தீர்ப்புகளைத் திருத்தி
அந்த உரிமையை தற்போது உச்ச நீதிமன்றம் பாதுகாத்துள்ளது" என்று என்.ராம் கூறினார்.
"ஆதார் பதிவு விவகாரத்தில் இந்த தீர்ப்பு நிச்சயமாக பிரதிபலிக்கும் என்று கூறும் அவர், ஆதார் முறையைத் திணிக்க முயற்சிக்கும்
மத்திய அரசின் எண்ணம் இனி கடினமாக இருக்கும்" என்றார். "நெருக்கடி காலத்தில் நீதிபதி எச்.ஆர். கன்னா அளித்த தீர்ப்பு ஏற்படுத்திய
மாற்றத்தைப் போல இந்தத் தீர்ப்பும் சமூகத்தில் மாற்றத்தை ஏற்படுத்தலாம் என்று சிலர் கருதுவதாகவும்,மொத்தத்தில் இது ஒரு முக்கியத்துவம் நிறைந்த தீர்ப்பாகும்"
என்றும் என்.ராம் தெரிவித்தார். பிற செய்திகள் : சமூக ஊடகங்களில் பிபிசி தமிழ்"""
tamil_input_ids = tokenizer.encode(prefix + tamil_article, return_tensors="pt",truncation=True).input_ids
summary_ids = model.generate(tamil_input_ids, max_length=128)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("摘要后的泰米尔语文本:", summary)
模型输出
- 翻译任务中,模型输出泰米尔语的翻译文本。
- 摘要生成任务中,模型输出输入泰米尔语文本的摘要版本。
微调
如需在自己的数据集上微调模型,可按照以下步骤操作:
准备格式适当的数据集
- 摘要生成任务使用前缀"summarize: "
- 翻译任务无需前缀,可直接对输入文本和目标文本进行标记化
模型性能
