I

Indobertweet Base Uncased

由 indolem 开发
首个针对印尼推特的预训练语言模型,通过扩展印尼BERT并添加领域特定词汇构建
下载量 2,848
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

IndoBERTweet是针对印尼推特优化的预训练模型,采用有效的领域特定词汇初始化方法,在多种印尼推特NLP任务上表现优异

模型特点

领域特定词汇初始化
通过BERT子词嵌入的平均池化初始化推特领域词汇,比从头训练更高效
大规模预训练数据
使用4.09亿词元的印尼推文数据,是IndoBERT训练数据的两倍
推特文本优化
专门处理用户提及、URL和表情符号等推特特有内容

模型能力

印尼推特文本理解
情感分析
情绪识别
仇恨言论检测
命名实体识别

使用案例

社交媒体分析
推特情感分析
分析印尼推特用户对特定话题的情感倾向
在IndoLEM数据集上达到86.6%准确率
仇恨言论检测
识别印尼推特中的仇恨言论内容
在HS1数据集上达到88.8%准确率
自然语言处理
命名实体识别
识别印尼推特文本中的人名、地名等实体
在正式文本数据集上达到88.1%准确率