语言:
- 芬兰语(fi)
许可证:Apache-2.0
标签:
- 芬兰语
- GPT-2
数据集:
- Finnish-NLP/mc4_fi_cleaned
- 维基百科(wikipedia)
交互示例:
- 文本:"生成文本的人工智能是"
芬兰语GPT-2中型模型
基于因果语言建模(CLM)目标预训练的芬兰语GPT-2中型模型。GPT-2最初在这篇论文中提出,并首次发布于此页面。
注意:本模型是HuggingFace的GPT-2-medium配置中3.45亿参数版本,而非OpenAI著名的15亿参数大模型。我们还提供了性能更优的7.74亿参数版本gpt2-large-finnish。
模型描述
芬兰GPT-2是基于海量芬兰语文本通过自监督方式预训练的transformers模型。这意味着它仅对原始文本进行预训练,无需任何人工标注(因此可利用大量公开数据),通过自动过程从文本生成输入和标签。具体而言,它被训练来预测句子中的下一个单词。
更准确地说,输入是特定长度的连续文本序列,目标则是向右移动一个词符(单词或词片段)的相同序列。模型内部使用掩码机制确保对第i
个词符的预测仅使用1
至i
的输入,而不涉及未来词符。
通过这种方式,模型学习了芬兰语的内在表示,可用于提取下游任务所需的特征。但该模型最擅长其预训练目标——根据提示生成文本。
使用场景与限制
您可直接将原始模型用于文本生成,或针对下游任务进行微调。请访问模型中心寻找相关任务的微调版本。
使用方法
可通过pipeline直接用于文本生成:
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='Finnish-NLP/gpt2-medium-finnish')
>>> generator("生成文本的人工智能是", max_length=30, num_return_sequences=5)
PyTorch中获取文本特征的用法:
from transformers import GPT2Tokenizer, GPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('Finnish-NLP/gpt2-medium-finnish')
model = GPT2Model.from_pretrained('Finnish-NLP/gpt2-medium-finnish')
text = "替换为任意文本"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
TensorFlow中的用法:
from transformers import GPT2Tokenizer, TFGPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('Finnish-NLP/gpt2-medium-finnish')
model = TFGPT2Model.from_pretrained('Finnish-NLP/gpt2-medium-finnish', from_pt=True)
text = "替换为任意文本"
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
局限性及偏差
模型的训练数据包含大量未经过滤的互联网内容,远非中立。因此模型可能产生有偏见的预测,这种偏差也会影响所有微调版本。
与所有语言模型一样,难以提前预测芬兰GPT-2对特定提示的响应,可能意外生成冒犯性内容。建议人工审核或过滤输出,既审查不良内容又提高结果质量。
训练数据
本模型基于六个数据集的组合进行预训练:
原始数据经清洗过滤低质量和非芬兰语内容,最终约84GB文本。
训练流程
预处理
采用字节级BPE编码(针对Unicode字符),词表大小50,257。输入为512个连续词符的序列。
预训练
在Google TPU Research Cloud赞助的TPUv3-8 VM上训练36万步(略超1个epoch,批次大小128)。使用AdamW优化器,初始学习率1e-4,前4000步学习率预热,之后余弦衰减。
评估结果
使用mc4_fi_cleaned验证集,以困惑度(分数越低越好)为评估指标。如下表所示,本模型(表格首行)表现优于小型gpt2-finnish,但不及大型gpt2-large-finnish模型。
|
困惑度 |
Finnish-NLP/gpt2-medium-finnish |
34.08 |
Finnish-NLP/gpt2-finnish |
44.19 |
Finnish-NLP/gpt2-large-finnish |
30.74 |
致谢
感谢Google TPU研究云提供的计算资源支持。
团队成员
欢迎联系我们获取更多详情 ü§ó