B

Bert Base Finnish Cased V1

由 TurkuNLP 开发
FinBERT是谷歌BERT模型的芬兰语版本,专为芬兰语自然语言处理任务优化,通过大规模芬兰语语料训练,在多项任务上超越多语言BERT表现。
下载量 10.30k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

基于BERT架构的芬兰语预训练语言模型,支持通过微调应用于各类芬兰语NLP任务。采用定制化词表覆盖更全面的芬兰语词汇,在新闻、论坛等多样语料上训练。

模型特点

定制化词表
包含50,000个芬兰语优化的词片段,相比多语言BERT显著提升词汇覆盖率
大规模预训练
使用30亿芬兰语标记(240亿字符)训练,数据量是芬兰语维基百科的30倍
领域适应性
训练数据涵盖新闻、在线讨论和网络爬取内容,支持多样化应用场景

模型能力

文本分类
命名实体识别
词性标注
语义理解

使用案例

新闻分析
新闻主题分类
对Yle新闻进行自动分类
在不同规模训练数据下均优于多语言BERT
社交媒体分析
论坛内容分类
对Ylilauta在线讨论内容分类
准确率显著高于FastText基线模型
信息提取
命名实体识别
从文本中识别芬兰语人名、地名等实体
在FiNER语料库上达到92.4%准确率