许可证:apache-2.0
数据集:
- HariprasathSB/tamil_summarization
语言:
- 英语
- 泰米尔语
标签:
- 摘要生成
- 翻译
管道标签:文本到文本生成
泰米尔语摘要生成与英语-泰米尔语翻译模型
概述
本仓库包含一个针对泰米尔语摘要生成和英语-泰米尔语翻译任务进行微调的模型。该模型基于Hugging Face Transformers库进行微调。本文档将介绍模型的使用方法及其功能。
模型详情
使用方法
安装
可通过pip安装所需依赖:
pip install transformers
推理
以下是使用该模型进行摘要生成和翻译任务的示例:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("suriya7/Tamil-Summarization")
model = AutoModelForSeq2SeqLM.from_pretrained("suriya7/Tamil-Summarization")
input_text = "Be the change that you wish to see in the world."
input_ids = tokenizer.encode(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids,max_length=128)
translated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("翻译后的泰米尔语句子:", translated_text)
tamil_article = """இது குறித்து அவர் பிபிசி தமிழிடம் கூறுகையில், "இத்தீர்ப்பை மிகச் சிறந்த முற்போக்கான தீர்ப்பாக பார்க்கிறேன்.
அடிப்படை உரிமை என்ன என்பதை மிகவும் தீவிரமாக இத்தீர்ப்பு விளக்கியுள்ளது" என்றார்.
"இந்திய அரசியலமைப்பின் 21-ஆவது விதியை மிகவும் ஆழமாக நீதிமன்றம் விளக்கியுள்ளது என்றும்,
ஏற்கனவே இரு வேறு வழக்குகளில் தனி நபர் அந்தரங்கத்தை அடிப்படை உரிமை பாதுகாக்காது எனக் குறிப்பிட்ட தீர்ப்புகளைத் திருத்தி
அந்த உரிமையை தற்போது உச்ச நீதிமன்றம் பாதுகாத்துள்ளது" என்று என்.ராம் கூறினார்.
"ஆதார் பதிவு விவகாரத்தில் இந்த தீர்ப்பு நிச்சயமாக பிரதிபலிக்கும் என்று கூறும் அவர், ஆதார் முறையைத் திணிக்க முயற்சிக்கும்
மத்திய அரசின் எண்ணம் இனி கடினமாக இருக்கும்" என்றார். "நெருக்கடி காலத்தில் நீதிபதி எச்.ஆர். கன்னா அளித்த தீர்ப்பு ஏற்படுத்திய
மாற்றத்தைப் போல இந்தத் தீர்ப்பும் சமூகத்தில் மாற்றத்தை ஏற்படுத்தலாம் என்று சிலர் கருதுவதாகவும்,மொத்தத்தில் இது ஒரு முக்கியத்துவம் நிறைந்த தீர்ப்பாகும்"
என்றும் என்.ராம் தெரிவித்தார். பிற செய்திகள் : சமூக ஊடகங்களில் பிபிசி தமிழ்"""
tamil_input_ids = tokenizer.encode(tamil_article, return_tensors="pt",truncation=True).input_ids
summary_ids = model.generate(tamil_input_ids, max_length=128)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("摘要生成的泰米尔语文本:", summary)
模型输出
- 翻译任务:模型输出泰米尔语翻译文本。
- 摘要生成任务:模型输出输入泰米尔语文本的摘要版本。
微调
如需在自己的数据集上微调模型,可遵循以下步骤:
准备格式适配的数据集
- 摘要生成任务需添加前缀"summarize: "
- 翻译任务无需前缀,直接对输入文本和目标文本进行标记化
模型性能
