🚀 医学文本摘要模型卡片
该模型可用于生成准确且信息丰富的放射学诊断意见,有助于改善放射科医生与其他医疗服务提供者之间的沟通。
🚀 快速开始
使用以下代码开始使用该模型:
from transformers import AutoTokenizer, AutoModelForMaskedLM, AutoModelForSeq2SeqLM
from transformers import DataCollatorForSeq2Seq
model_checkpoint = "attach your trained model here"
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
from transformers import SummarizationPipeline
summarizer = SummarizationPipeline(model=model, tokenizer=tokenizer)
output= summarizer("heart size normal mediastinal hilar contours remain stable small right pneumothorax remains unchanged surgical lung staples overlying left upper lobe seen linear pattern consistent prior upper lobe resection soft tissue osseous structures appear unremarkable nasogastric endotracheal tubes remain satisfactory position atelectatic changes right lower lung field remain unchanged prior study")
✨ 主要特性
该模型是基于BioBart的序列到序列模型,经过在自定义数据集上的训练,能够将放射学检查结果总结为诊断意见。
📦 安装指南
文档未提及安装步骤,暂不展示。
💻 使用示例
基础用法
from transformers import AutoTokenizer, AutoModelForMaskedLM, AutoModelForSeq2SeqLM
from transformers import DataCollatorForSeq2Seq
model_checkpoint = "attach your trained model here"
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
from transformers import SummarizationPipeline
summarizer = SummarizationPipeline(model=model, tokenizer=tokenizer)
output= summarizer("heart size normal mediastinal hilar contours remain stable small right pneumothorax remains unchanged surgical lung staples overlying left upper lobe seen linear pattern consistent prior upper lobe resection soft tissue osseous structures appear unremarkable nasogastric endotracheal tubes remain satisfactory position atelectatic changes right lower lung field remain unchanged prior study")
📚 详细文档
模型详情
模型描述
此模型是基于BioBart的序列到序列模型,在自定义数据集上进行训练,用于将放射学检查结果总结为诊断意见。在训练过程中,使用了70000份放射学报告来训练模型,使其能够将检查结果总结为诊断意见。
- 开发者:[Engr. Hamza Iqbal Malik (UET TAXILA)]
- 分享者:[Engr. Hamza Iqbal Malik (UET TAXILA)]
- 模型类型:[医学文本摘要模型]
- 语言(NLP):[英语]
- 微调基础模型:[GanjinZero/biobart-v2-base]
模型来源
- 仓库:[GanjinZero/biobart-v2-base]
- 论文:[BioBART: Pretraining and Evaluation of A Biomedical Generative Language Model]
模型用途
直接用途
该模型可直接用于根据放射学报告生成诊断意见。用户输入放射学报告的检查结果,模型将基于这些信息生成总结性的诊断意见。
非预期用途
该模型仅适用于根据放射学报告生成诊断意见,不适合用于放射学报告摘要之外的任务。
使用建议
用户在使用生成的诊断意见进行临床决策时,应了解模型的局限性和潜在偏差。需要更多信息才能提供具体建议。
训练详情
训练数据
训练数据是一个包含70000份放射学报告的自定义数据集。数据经过清理,去除了任何个人或机密信息,还进行了分词和归一化处理。训练数据被分为训练集和验证集,训练集包含63000份放射学报告,验证集包含7000份放射学报告。
训练过程
该模型使用Hugging Face Transformers库进行训练:https://huggingface.co/transformers/ 。使用AdamW优化器,学习率为5.6e - 5,训练了10个epoch。
训练超参数
- 训练方案:
- [evaluation_strategy="epoch"]
- [learning_rate=5.6e - 5]
- [per_device_train_batch_size=batch_size //4]
- [per_device_eval_batch_size=batch_size //4]
- [weight_decay=0.01]
- [save_total_limit=3]
- [num_train_epochs=num_train_epochs //4]
- [predict_with_generate=True //4]
- [logging_steps=logging_steps]
- [push_to_hub=False]
评估
测试数据、因素和指标
测试数据
测试数据包含10000份放射学报告。
评估因素
评估了以下因素:
- [-ROUGE - 1]
- [-ROUGE - 2]
- [-ROUGE - L]
- [-ROUGELSUM]
评估指标
使用以下指标评估模型:
- [-ROUGE - 1得分:44.857]
- [-ROUGE - 2得分:29.015]
- [-ROUGE - L得分:42.032]
- [-ROUGELSUM得分:42.038]
评估结果
该模型在测试数据上的ROUGE - L得分为42.032,这表明模型生成的摘要与人工撰写的摘要非常相似。
模型卡片作者
- 姓名:Engr. Hamza Iqbal Malik
- 领英:[www.linkedin.com/in/hamza - iqbal - malik - 42366a239](www.linkedin.com/in/hamza - iqbal - malik - 42366a239)
- GitHub:https://github.com/hamza4344
模型卡片联系人
- 姓名:Engr. Hamza Iqbal Malik
- 领英:[www.linkedin.com/in/hamza - iqbal - malik - 42366a239](www.linkedin.com/in/hamza - iqbal - malik - 42366a239)
- GitHub:https://github.com/hamza4344
🔧 技术细节
文档未提供足够详细的技术实现细节,暂不展示。
📄 许可证
文档未提及许可证信息,暂不展示。
📋 模型信息表格
属性 |
详情 |
模型类型 |
医学文本摘要模型 |
训练数据 |
包含70000份放射学报告的自定义数据集,经过清理、分词和归一化处理,分为63000份的训练集和7000份的验证集 |
微调基础模型 |
GanjinZero/biobart - v2 - base |
语言(NLP) |
英语 |
开发者 |
Engr. Hamza Iqbal Malik (UET TAXILA) |
分享者 |
Engr. Hamza Iqbal Malik (UET TAXILA) |
仓库 |
GanjinZero/biobart - v2 - base |
论文 |
BioBART: Pretraining and Evaluation of A Biomedical Generative Language Model |