B

Bert Base Finnish Uncased V1

由 TurkuNLP 开发
FinBERT是基于谷歌BERT架构的芬兰语预训练语言模型,在超过30亿词符的芬兰语文本上训练,适用于各种芬兰语NLP任务。
下载量 1,964
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

FinBERT是专门针对芬兰语优化的BERT模型,通过微调可在文档分类、命名实体识别和词性标注等任务中达到最先进性能。

模型特点

专业芬兰语词汇表
自定义50,000词片词汇表,芬兰语词汇覆盖远超多语言BERT
大规模芬兰语训练
在30亿词符(240亿字符)的芬兰语文本上训练,远超维基百科数据量
多领域适用性
训练数据包含新闻、在线讨论和网络爬取内容,适应多种文本类型

模型能力

芬兰语文本理解
文档分类
命名实体识别
词性标注
迁移学习

使用案例

新闻分类
Yle新闻分类
对芬兰广播公司新闻文章进行分类
在不同训练集规模下均优于多语言BERT
社交媒体分析
Ylilauta论坛分类
对芬兰在线论坛内容进行分类
性能显著优于基线模型
信息提取
命名实体识别
识别芬兰语文本中的人名、地名等实体
在FiNER语料库上达到92.40%准确率