FinBERT开源芬兰语自然语言处理模型 - 专为芬兰语优化，性能超越多语言BERT

首页

Bert Base Finnish Cased V1

由 TurkuNLP 开发

FinBERT是谷歌BERT模型的芬兰语版本，专为芬兰语自然语言处理任务优化，通过大规模芬兰语语料训练，在多项任务上超越多语言BERT表现。

大型语言模型其他#芬兰语优化 #迁移学习 #自然语言处理

下载量 10.30k

发布时间 : 3/2/2022

模型简介

基于BERT架构的芬兰语预训练语言模型，支持通过微调应用于各类芬兰语NLP任务。采用定制化词表覆盖更全面的芬兰语词汇，在新闻、论坛等多样语料上训练。

模型特点

定制化词表

包含50,000个芬兰语优化的词片段，相比多语言BERT显著提升词汇覆盖率

大规模预训练

使用30亿芬兰语标记（240亿字符）训练，数据量是芬兰语维基百科的30倍

领域适应性

训练数据涵盖新闻、在线讨论和网络爬取内容，支持多样化应用场景

模型能力

文本分类

命名实体识别

词性标注

语义理解

使用案例

新闻分析

新闻主题分类

对Yle新闻进行自动分类

在不同规模训练数据下均优于多语言BERT

社交媒体分析

论坛内容分类

对Ylilauta在线讨论内容分类

准确率显著高于FastText基线模型

信息提取

命名实体识别

从文本中识别芬兰语人名、地名等实体

在FiNER语料库上达到92.4%准确率

🚀 芬兰语BERT模型

这是一个基于Google BERT的深度迁移学习模型的芬兰语版本，可针对各种芬兰语自然语言处理任务进行微调，以实现最先进的效果。

🚀 快速开始

1.0版本发布 (2019年11月25日)

我们通常建议使用区分大小写的模型。

介绍芬兰语BERT的论文：arXiv:1912.07076

✨ 主要特性

这是Google BERT深度迁移学习模型的芬兰语版本。该模型可以进行微调，以在各种芬兰语自然语言处理任务中取得最先进的结果。

FinBERT具有自定义的50,000词片词汇表，与谷歌之前发布的多语言BERT模型相比，它对芬兰语单词的覆盖范围要好得多：

词汇表	示例
FinBERT	Suomessa vaihtuu kesän aikana sekä pääministeri että valtiovarain ##ministeri .
多语言BERT	Suomessa vai ##htuu kes ##än aikana sekä p ##ää ##minister ##i että valt ##io ##vara ##in ##minister ##i .

FinBERT在来自新闻、在线讨论和网络爬取的超过30亿个芬兰语文本标记（240亿个字符）上进行了100万步的预训练。相比之下，多语言BERT是在维基百科文本上进行训练的，其中芬兰语维基百科文本大约是用于训练FinBERT的文本量的3%。

这些特性使得FinBERT在针对芬兰语自然语言处理任务进行微调时，不仅能够超越多语言BERT，还能超越所有之前提出的模型。

📚 详细文档

文档分类

YLE和Ylilauta文档分类的学习曲线

在YLE新闻（左）和Ylilauta在线讨论（右）语料库上，在一系列训练集大小下，FinBERT在文档分类任务上的表现优于多语言BERT（M - BERT）。（包含使用FastText的基线分类性能以供参考。）

[代码][YLE数据] [Ylilauta数据]

命名实体识别

在FiNER语料库上的评估（Ruokolainen等人2019）

模型	准确率
FinBERT	92.40%
多语言BERT	90.29%
FiNER - 标记器（基于规则）	86.82%

（FiNER标记器的结果来自Ruokolainen等人2019）

[代码][数据]

词性标注

在使用通用依存关系词性标签标注的三个芬兰语语料库上进行评估：图尔库依存树库（TDT）、芬兰树库（FTB）和平行通用依存树库（PUD）

模型	TDT	FTB	PUD
FinBERT	98.23%	98.39%	98.08%
多语言BERT	96.97%	95.87%	97.58%

[代码][数据]

🔧 历史版本

0.2版本

2019年10月24日 基于芬兰语新闻、在线讨论和爬取数据语料库从头开始训练的BERT基础不区分大小写模型的测试版。

在此处下载模型：bert - base - finnish - uncased.zip

0.1版本

2019年9月30日 我们发布了基于芬兰语新闻、在线讨论和爬取数据语料库从头开始训练的BERT基础区分大小写模型的测试版。

在此处下载模型：bert - base - finnish - cased.zip

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文