DA BERT Old News V1

D

DA BERT Old News V1

由 CALDISS-AAU 开发

首个基于丹麦专制时期（1660-1849年）历史文本训练的变压器模型，由奥尔堡大学研究人员开发，用于处理与现代丹麦语差异较大的历史文本语义。

大型语言模型

其他开源协议:MIT #丹麦历史文本 #领域专用BERT #古语语义分析

下载量 48

发布时间 : 4/1/2025

模型简介

基于MLM任务预训练的BERT模型，专门针对丹麦专制时期的历史文本进行优化，能够更好地理解和处理这些与现代丹麦语有显著差异的文本。

模型特点

历史文本优化

专门针对丹麦专制时期（1660-1849年）的历史文本进行训练，能够更好地捕捉与现代丹麦语差异较大的语义。

定制分词器

使用定制WordPiece分词器，优化对历史文本的分词效果。

高质量训练数据

训练数据来自ENO语料库，包含1762至1848年间丹麦与挪威报纸的新闻、公告及广告，单词级错误率约为5%。

模型能力

填充掩码

历史文本语义理解

使用案例

历史研究

历史文本分析

用于分析丹麦专制时期的历史文本，帮助研究人员理解当时的语言使用和社会背景。

历史文献翻译辅助

辅助翻译历史文献，提供更准确的语义理解。

语言学

语言演变研究

用于研究丹麦语从专制时期到现代的演变过程。

🚀 DA-Bert_Old_News_V1 模型卡片

DA-Bert_Old_News_V1 是基于丹麦绝对主义时期（1660 - 1849 年）的历史文本训练的 Transformer 模型的首个版本。该模型由奥尔堡大学的研究人员创建，旨在构建一个特定领域的模型，以捕捉那些与现代丹麦语差异较大的历史文本的含义。

🚀 快速开始

使用以下代码开始使用该模型：

# 此处应补充具体代码，原文未提供

✨ 主要特性

领域特定预测：可进行特定领域的掩码标记预测。
嵌入提取：用于语义搜索的嵌入提取。
可微调性：可进行进一步的微调以适应特定用例，也可作为基于历史 BERT 的丹麦语或斯堪的纳维亚语语言模型的基线。

📦 安装指南

原文未提及安装步骤，暂无法提供。

💻 使用示例

基础用法

# 此处应补充基础用法代码，原文未提供

高级用法

# 此处应补充高级用法代码及说明，原文未提供

📚 详细文档

模型详情

预训练任务：基于 MLM（掩码语言建模）任务的预训练 BERT 模型。
训练数据：ENO（Enevældens Nyheder Online），这是一个包含 1762 年至 1848 年丹麦和挪威报纸上的新闻文章、公告和广告的语料库。模型在约 2.6 亿个单词的子集上进行训练，数据使用定制的 Transkribus Pylaia 模型创建，单词级错误率约为 5%。

属性	详情
模型类型	BERT
训练数据	ENO 语料库，包含 1762 - 1848 年丹麦和挪威报纸的新闻文章、公告和广告，约 2.6 亿个单词，单词级错误率约 5%

模型描述

架构：BERT
预训练目标：掩码语言建模（MLM）
序列长度：512 个标记
分词器：自定义 WordPiece 分词器

模型来源

仓库：https://github.com/CALDISS-AAU/OldNewsBERT
论文：正在进行中

使用场景

直接使用：可直接用于特定领域的掩码标记预测，也可用于类似数据的基本平均池化嵌入，但结果可能因模型仅在 MLM 任务上训练而有所不同。
不适用场景：由于模型在 ENO 数据集上训练，不适合用于现代丹麦语文本。

偏差、风险和局限性

时间局限性：模型严重受限于训练数据的历史时期，用于现代丹麦语或其他斯堪的纳维亚语言的掩码标记预测时性能会有所不同，需要进一步微调。
数据偏差：训练数据来自报纸，模型对这类材料和特定写作方式存在偏差，在处理更多使用比喻性语言的材料时性能也会有所不同。
语料错误：语料创建过程中的错误导致模型存在一些小的偏差和风险，单词级约有 5% 的错误会延续到预训练模型中。

建议

该模型基于表达各种过时世界观的历史文本，包括种族主义、反民主和父权制情绪，这使其不适合许多用例，但可用于研究丹麦历史中的此类偏差。

训练详情

训练数据

原文未提供详细信息。

训练过程

预处理：移除长度小于 35 个字符的文本，移除包含预定数量德语、拉丁语或稀有单词的文本，移除多余的空格。
训练超参数：
- 训练机制：原文未提供详细信息。
- 模型在提供的 HPC 系统上训练约 45 小时。
- MLM 概率定义为 0.15。
- 训练参数如原文所示。

速度、大小和时间

原文未提供详细信息。

评估

测试数据、因素和指标

测试数据：原文未提供详细信息。
因素：原文未提供详细信息。
指标：交叉熵损失（BERT 在 MLM 训练中的标准用法）、测试集平均损失、困惑度（基于损失值计算）。

结果

损失：2.08
测试集平均损失：2.07
困惑度：7.65

技术规格

模型架构和目标

原文未提供详细信息。

计算基础设施

硬件：硬件类型为 64 核（Intel Xeon Gold 6326），256 GB 内存，4 个 NVIDIA A10；使用时长为 44 小时 34 分钟；云服务提供商为 Ucloud SDU；计算区域基于南丹麦大学、奥胡斯大学和奥尔堡大学的云服务。
软件：Python 3.12.8

引用

原文未提供详细的引用信息。

模型卡片作者

Matias Appel (mkap@adm.aau.dk)
Johan Heinsen (heinsen@dps.aau.dk)

模型卡片联系方式

CALDISS, AAU: www.caldiss.aau.dk

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24