D

DA BERT Old News V1

由 CALDISS-AAU 开发
首个基于丹麦专制时期(1660-1849年)历史文本训练的变压器模型,由奥尔堡大学研究人员开发,用于处理与现代丹麦语差异较大的历史文本语义。
下载量 48
发布时间 : 4/1/2025
模型介绍
内容详情
替代品

模型简介

基于MLM任务预训练的BERT模型,专门针对丹麦专制时期的历史文本进行优化,能够更好地理解和处理这些与现代丹麦语有显著差异的文本。

模型特点

历史文本优化
专门针对丹麦专制时期(1660-1849年)的历史文本进行训练,能够更好地捕捉与现代丹麦语差异较大的语义。
定制分词器
使用定制WordPiece分词器,优化对历史文本的分词效果。
高质量训练数据
训练数据来自ENO语料库,包含1762至1848年间丹麦与挪威报纸的新闻、公告及广告,单词级错误率约为5%。

模型能力

填充掩码
历史文本语义理解

使用案例

历史研究
历史文本分析
用于分析丹麦专制时期的历史文本,帮助研究人员理解当时的语言使用和社会背景。
历史文献翻译辅助
辅助翻译历史文献,提供更准确的语义理解。
语言学
语言演变研究
用于研究丹麦语从专制时期到现代的演变过程。