FinBERT开源芬兰语预训练模型 - 免费助力各类芬兰语NLP任务

首页

Bert Base Finnish Uncased V1

由 TurkuNLP 开发

FinBERT是基于谷歌BERT架构的芬兰语预训练语言模型，在超过30亿词符的芬兰语文本上训练，适用于各种芬兰语NLP任务。

大型语言模型其他#芬兰语NLP #迁移学习优化 #新闻文本分析

下载量 1,964

发布时间 : 3/2/2022

模型简介

FinBERT是专门针对芬兰语优化的BERT模型，通过微调可在文档分类、命名实体识别和词性标注等任务中达到最先进性能。

模型特点

专业芬兰语词汇表

自定义50,000词片词汇表，芬兰语词汇覆盖远超多语言BERT

大规模芬兰语训练

在30亿词符（240亿字符）的芬兰语文本上训练，远超维基百科数据量

多领域适用性

训练数据包含新闻、在线讨论和网络爬取内容，适应多种文本类型

模型能力

芬兰语文本理解

文档分类

命名实体识别

词性标注

迁移学习

使用案例

新闻分类

Yle新闻分类

对芬兰广播公司新闻文章进行分类

在不同训练集规模下均优于多语言BERT

社交媒体分析

Ylilauta论坛分类

对芬兰在线论坛内容进行分类

性能显著优于基线模型

信息提取

命名实体识别

识别芬兰语文本中的人名、地名等实体

在FiNER语料库上达到92.40%准确率

🚀 芬兰语BERT模型

这是一个针对芬兰语的深度迁移学习模型，能在多种芬兰语自然语言处理任务中取得优异成果

🚀 快速开始

1.0版本发布（2019年11月25日）

可在此处下载模型：

区分大小写的芬兰语BERT基础模型：bert-base-finnish-cased-v1.zip
不区分大小写的芬兰语BERT基础模型：bert-base-finnish-uncased-v1.zip

我们通常建议使用区分大小写的模型。

介绍芬兰语BERT的论文：arXiv:1912.07076

✨ 主要特性

这是谷歌 BERT 模型的芬兰语版本。该模型可以进行微调，从而在各种芬兰语自然语言处理任务中达到最先进的效果。

FinBERT 采用了自定义的50,000词片词汇表，与谷歌之前发布的多语言BERT 模型相比，对芬兰语单词的覆盖度要好得多：

词汇表	示例
FinBERT	Suomessa vaihtuu kesän aikana sekä pääministeri että valtiovarain ##ministeri .
多语言BERT	Suomessa vai ##htuu kes ##än aikana sekä p ##ää ##minister ##i että valt ##io ##vara ##in ##minister ##i .

FinBERT 在来自新闻、在线讨论和网络爬虫的超过30亿个标记（240亿个字符）的芬兰语文本上进行了100万步的预训练。相比之下，多语言BERT是在维基百科文本上进行训练的，其中芬兰语维基百科文本约占 FinBERT 训练数据量的3%。

这些特性使得 FinBERT 在针对芬兰语自然语言处理任务进行微调时，不仅能够超越多语言BERT，还能超越之前提出的所有模型。

📚 详细文档

文档分类

YLE和Ylilauta文档分类的学习曲线

在 Yle 新闻（左）和 Ylilauta 在线讨论（右）语料库的一系列训练集规模上，FinBERT 在文档分类任务上的表现优于多语言BERT（M - BERT）。（包含使用 FastText 的基线分类性能以供参考。）

[代码][Yle数据] [Ylilauta数据]

命名实体识别

在 FiNER 语料库上的评估（Ruokolainen 等人，2019）

模型	准确率
FinBERT	92.40%
多语言BERT	90.29%
FiNER - 标记器（基于规则）	86.82%

（FiNER 标记器的结果来自 Ruokolainen 等人，2019）

[代码][数据]

词性标注

在三个标注了通用依存关系词性标签的芬兰语语料库上进行评估：图尔库依存树库（TDT）、芬兰树库（FTB）和平行通用依存树库（PUD）

模型	TDT	FTB	PUD
FinBERT	98.23%	98.39%	98.08%
多语言BERT	96.97%	95.87%	97.58%

[代码][数据]

💻 使用示例

与PyTorch一起使用

如果您想将该模型与 huggingface/transformers 库一起使用，请遵循 huggingface_transformers.md 中的步骤。

📄 历史版本

0.2版本

2019年10月24日 基于芬兰语新闻、在线讨论和爬虫数据语料库从头开始训练的不区分大小写的BERT基础模型的测试版。

可在此处下载模型：bert-base-finnish-uncased.zip

0.1版本

2019年9月30日 我们发布了基于芬兰语新闻、在线讨论和爬虫数据语料库从头开始训练的区分大小写的BERT基础模型的测试版。

可在此处下载模型：bert-base-finnish-cased.zip

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文