语言:英语
任务类型:填充掩码
许可证:CC-BY-SA-4.0
缩略图:https://i.ibb.co/0yz81K9/sec-bert-logo.png
标签:
示例输入:
- "总净销售额在[XXXX]期间相比[XXXX]下降了[MASK]%或$[X.X]十亿"
- "总净销售额在[XXXX]期间相比[XXXX]下降了[X]%或$[MASK]十亿"
- "总净销售额在[MASK]期间相比[XXXX]下降了[X]%或$[X.X]十亿"
- "在[MASK]期间,公司回购了$[XX.X]十亿普通股并支付了$[XX.X]十亿股息等价物"
- "在2019年期间,公司回购了$[MASK]十亿普通股并支付了$[XX.X]十亿股息等价物"
SEC-BERT财务领域模型

SEC-BERT是一系列面向金融领域的BERT模型,旨在支持金融自然语言处理研究和金融科技应用。该系列包含以下模型:
- SEC-BERT-BASE基础版:架构与BERT-BASE相同,基于金融文档训练
- SEC-BERT-NUM数字版:在基础版上用[NUM]伪标记统一替换所有数字,避免数字碎片化
- SEC-BERT-SHAPE形态版(当前模型):将数字替换为表示其形态的伪标记(如'53.2'转为'[XX.X]'),保持数值表达完整性
预训练语料
模型基于1993-2019年间260,773份10-K年报文件训练,数据源自美国证券交易委员会(SEC)公开档案
训练细节
加载预训练模型
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/sec-bert-shape")
model = AutoModel.from_pretrained("nlpaueb/sec-bert-shape")
文本预处理
使用前需将数字转换为214种预定义的形态伪标记(如'40,200.5'→'[XX,XXX.X]'),未匹配形态则替换为[NUM]。示例处理流程:
import re
import spacy
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("nlpaueb/sec-bert-shape")
spacy_tokenizer = spacy.load("en_core_web_sm")
sentence = "总净销售额下降2%或54亿美元,2019年较2018年"
def sec_bert_shape_preprocess(text):
tokens = [t.text for t in spacy_tokenizer(text)]
processed_text = []
for token in tokens:
if re.fullmatch(r"(\d+[\d,.]*)|([,.]\d+)", token):
shape = '[' + re.sub(r'\d', 'X', token) + ']'
processed_text.append(shape if shape in tokenizer.additional_special_tokens else '[NUM]')
else:
processed_text.append(token)
return ' '.join(processed_text)
print(tokenizer.tokenize(sec_bert_shape_preprocess(sentence)))
模型对比测试
财务动词预测
输入:总净销售额[MASK]2%或54亿美元,2019年较2018年
模型 |
预测结果(概率) |
BERT基础版 |
增长(0.221) |
SEC-BERT基础版 |
增长(0.678) |
SEC-BERT数字版 |
增长(0.753) |
SEC-BERT形态版 |
增长(0.747) |
数值单位预测
输入:总净销售额下降2%或5.4[MASK],2019年较2018年
模型 |
预测结果 |
BERT基础版 |
十亿(0.841) |
SEC系列模型 |
百万(>0.97) |
数值形态预测
输入:总净销售额下降[MASK]%或54亿美元...
相关论文
引用文献:FiNER: XBRL标记的金融数值实体识别(ACL 2022长论文)
@inproceedings{loukas-etal-2022-finer,
title = {FiNER: Financial Numeric Entity Recognition for XBRL Tagging},
author = {Loukas, Lefteris and Fergadiotis, Manos and Chalkidis, Ilias and Spyropoulou, Eirini and Malakasiotis, Prodromos and Androutsopoulos, Ion and Paliouras George},
booktitle = {Proceedings of ACL 2022},
year = {2022}
}
关于我们
雅典经济商业大学自然语言处理组专注于:
- 面向数据库/文档/网络的问答系统(特别是生物医学领域)
- 基于数据库的本体自然语言生成
- 文本分类(包括垃圾/有害内容过滤)
- 信息抽取与舆情分析(含法律文本分析与情感分析)
- 希腊语NLP工具开发(如解析器与命名实体识别)
- 自然语言处理中的机器学习(特别是深度学习)
由小组成员Manos Fergadiotis代表发布