S

Sec Bert Shape

由 nlpaueb 开发
面向金融领域的BERT变体,通过数值形态伪标记处理保持财务数据完整性
下载量 30
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

专为金融文本设计的BERT模型,通过将数字转换为形态伪标记(如'53.2'→'[XX.X]')优化财务数值处理,适用于10-K年报等金融文档分析

模型特点

数值形态标准化
将数字统一转换为214种预定义形态标记(如'[XX.X]'),避免数字碎片化问题
金融领域预训练
基于26万份SEC 10-K年报训练,深度适配财务文本特征
多版本适配
提供基础版/数字版/形态版三种变体,满足不同场景需求

模型能力

财务文本掩码预测
金融数值形态识别
财务动词预测
数值单位推断

使用案例

财务报告分析
财务指标变化预测
预测年报中销售额/利润等指标的增减趋势
在动词预测任务中准确率较基础BERT提升3倍
数值单位补全
自动补全财务数值的单位(百万/十亿等)
单位预测准确率>97%
监管文件处理
XBRL标记辅助
识别财务数值实体以辅助XBRL标记生成
相关技术已发表于ACL 2022论文