🚀 T5-base 微调用于情感跨度提取
本项目基于 Google 的 T5 基础模型,在 推文情感提取数据集 上进行微调,以完成 跨度情感提取 下游任务。所有荣誉归于 Lorenzo Ampil。
🚀 快速开始
from transformers import AutoModelWithLMHead, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("mrm8488/t5-base-finetuned-span-sentiment-extraction")
model = AutoModelWithLMHead.from_pretrained("mrm8488/t5-base-finetuned-span-sentiment-extraction")
def get_sentiment_span(text):
input_ids = tokenizer.encode(text, return_tensors="pt", add_special_tokens=True)
generated_ids = model.generate(input_ids=input_ids, num_beams=1, max_length=80).squeeze()
predicted_span = tokenizer.decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True)
return predicted_span
get_sentiment_span("question: negative context: My bike was put on hold...should have known that.... argh total bummer")
get_sentiment_span("question: positive context: On the monday, so i wont be able to be with you! i love you")
✨ 主要特性
- 基于 Google 的 T5 基础模型,在推文情感提取数据集上进行微调。
- 可用于跨度情感提取下游任务。
📚 详细文档
T5 模型详情
T5 模型由 Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu 在 《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》 中提出。摘要如下:
迁移学习是自然语言处理(NLP)中的一种强大技术,它先在数据丰富的任务上预训练模型,然后在下游任务上进行微调。迁移学习的有效性催生了多种方法、方法论和实践。在本文中,我们通过引入一个统一的框架,将每个语言问题转化为文本到文本的格式,探索了 NLP 迁移学习技术的领域。我们的系统研究比较了预训练目标、架构、无标签数据集、迁移方法和其他因素在数十个语言理解任务上的表现。通过将我们的探索见解与规模和新的“Colossal Clean Crawled Corpus”相结合,我们在许多涵盖摘要、问答、文本分类等的基准测试中取得了最先进的结果。为了促进未来 NLP 迁移学习的研究,我们发布了我们的数据集、预训练模型和代码。
下游任务详情(跨度情感提取) - 数据集 📚
推文情感提取数据集
示例:"My ridiculous dog is amazing." [情感:积极]
每秒都有大量推文传播,很难判断特定推文背后的情感是否会对公司或个人的品牌产生积极影响,还是会因负面语气而损害利润。在决策和反应瞬息万变的时代,捕捉语言中的情感非常重要。但是,哪些词语实际上导致了情感描述呢?在本次竞赛中,你需要挑选出反映情感的推文部分(单词或短语)。
利用这个广泛的推文数据集,提升你在这个重要领域的技能。努力改进你的技术,在本次竞赛中占据领先地位。推文中哪些词语支持积极、消极或中性情感?如何使用机器学习工具来做出这种判断?
在本次竞赛中,我们从 Figure Eight 的 Data for Everyone 平台提取了支持短语。该数据集名为“Sentiment Analysis: Emotion in Text”,包含带有现有情感标签的推文,在此根据知识共享署名 4.0 国际许可使用。你在本次竞赛中的目标是构建一个模型,能够查看给定推文的标签情感,并找出最能支持它的单词或短语。
免责声明:本次竞赛的数据集包含可能被认为亵渎、粗俗或冒犯性的文本。
数据集 |
划分 |
样本数量 |
TSE |
训练集 |
23907 |
TSE |
评估集 |
3573 |
模型微调 🏋️
训练脚本是 Lorenzo Ampil 创建的 此 Colab 笔记本 的略微修改版本,所有荣誉归于他!
📄 许可证
文档中未提及相关信息。
由 Manuel Romero/@mrm8488 创建 | LinkedIn
于西班牙用心打造 ♥