covidbert-nli开源模型 - 基于CORD19数据生成通用句子嵌入表示

首页

Covidbert Nli

由 gsarti 开发

基于冠状病毒研究论文数据集CORD19训练的BERT模型，通过自然语言推理任务微调生成通用句子嵌入表示

文本嵌入 #新冠科研语义理解 #NLI微调嵌入 #生物医学文本处理

下载量 26

发布时间 : 3/2/2022

模型简介

本模型是在CORD19数据集上预训练，并在SNLI和MultiNLI数据集上微调的BERT模型，专门用于生成与COVID-19相关的文本语义表示，适用于科研文献检索和语义相似度计算等任务。

模型特点

冠状病毒领域适应

基于CORD19冠状病毒研究论文数据集进行预训练，对COVID-19相关文本具有更好的表示能力

自然语言推理微调

在SNLI和MultiNLI数据集上进行微调，优化了句子级语义表示能力

高效训练配置

采用批大小64、23000训练步数、1450预热步数的优化配置，在P100 GPU上仅需6小时完成训练

模型能力

文本语义表示

句子相似度计算

科研文献检索

自然语言推理

使用案例

科研文献处理

新冠文献语义检索

基于语义相似度的COVID-19研究论文检索系统

在新冠语义浏览器项目中得到应用

科学文献分类

对冠状病毒相关研究论文进行自动分类

🚀 CovidBERT-NLI

CovidBERT-NLI 是 DeepSet 在 AllenAI 的 CORD19 数据集（一个关于冠状病毒的科学文章数据集）上训练的模型。该模型能够为科学研究提供语义理解和文本匹配能力，助力疫情相关研究的信息检索和分析。

🚀 快速开始

CovidBERT 模型使用原始的 BERT 词块词汇表，随后在 SNLI 和 MultiNLI 数据集上进行微调。微调过程借助了 sentence-transformers 库，采用平均池化策略和softmax 损失函数来生成通用的句子嵌入 [1]。

✨ 主要特性

基于专业数据集训练：使用 CORD19 数据集进行预训练，该数据集包含大量关于冠状病毒的科学文章，使模型在疫情相关领域具有更好的语义理解能力。
微调优化：在 SNLI 和 MultiNLI 数据集上进行微调，提升了模型在自然语言推理任务中的表现。
通用句子嵌入：通过平均池化策略和 softmax 损失函数生成通用的句子嵌入，可应用于多种自然语言处理任务。

📚 详细文档

基础信息

基础模型：来自 HuggingFace 的 AutoModel 的 deepset/covid_bert_base。
训练时间：在 Kaggle Notebooks 提供的 NVIDIA Tesla P100 GPU 上训练约 6 小时。

参数详情

参数	值
批次大小	64
训练步数	23000
预热步数	1450
小写处理	是
最大序列长度	128

性能评估

模型的性能在 STS 数据集的测试部分进行评估，使用斯皮尔曼等级相关性进行度量，并与通过相同流程获得的类似模型的性能进行比较，以验证其性能。

模型	得分
`covidbert-nli` (本模型)	67.52
`gsarti/biobert-nli`	73.40
`gsarti/scibert-nli`	74.50
`bert-base-nli-mean-tokens`[2]	77.12

使用示例

在 Covid-19 语义浏览器仓库中提供了基于相似度的科学论文检索的使用示例。

📄 参考文献

[1] A. Conneau 等人，Supervised Learning of Universal Sentence Representations from Natural Language Inference Data [2] N. Reimers 和 I. Gurevych，Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文