🚀 生物医学大语言模型Bio - Medical - Llama - 3 - 8B
生物医学大语言模型Bio - Medical - Llama - 3 - 8B是基于Meta - Llama - 3 - 8B - Instruct微调而来,在生物医学领域表现出色,能为研究、临床决策等提供有力支持。
🚀 快速开始
你可以按照以下代码示例使用Bio - Medical - Llama - 3 - 8B模型:
import transformers
import torch
model_id = "ContactDoctor/Bio-Medical-Llama-3-8B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are an expert trained on healthcare and biomedical domain!"},
{"role": "user", "content": "I'm a 35-year-old male and for the past few months, I've been experiencing fatigue, increased sensitivity to cold, and dry, itchy skin. What is the diagnosis here?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
✨ 主要特性
- 专业适配:专为生物医学应用定制,能理解和生成生物医学领域的文本。
- 数据多样:使用包含超500,000条多样条目的自定义数据集进行微调,涵盖合成和人工筛选数据。
- 性能优越:在多个生物医学NLP任务中表现优于许多领先的大语言模型。
📦 安装指南
文档未提供具体安装命令,暂无法展示安装指南。
💻 使用示例
基础用法
import transformers
import torch
model_id = "ContactDoctor/Bio-Medical-Llama-3-8B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are an expert trained on healthcare and biomedical domain!"},
{"role": "user", "content": "I'm a 35-year-old male and for the past few months, I've been experiencing fatigue, increased sensitivity to cold, and dry, itchy skin. What is the diagnosis here?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
高级用法
文档未提供高级用法代码示例,暂无法展示。
📚 详细文档
模型详情
属性 |
详情 |
模型名称 |
Bio - Medical - Llama - 3 - 8B |
基础模型 |
Llama - 3 - 8B - Instruct |
参数数量 |
80亿 |
训练数据 |
自定义高质量生物医学数据集 |
数据集中条目数量 |
500,000 + |
数据集组成 |
数据集包含合成和人工筛选的样本,确保对生物医学知识的多样化和全面覆盖。 |
模型描述
Bio - Medical - Llama - 3 - 8B模型是专为生物医学应用设计的专业大语言模型。它基于meta - llama/Meta - Llama - 3 - 8B - Instruct模型,使用包含超500,000条多样条目的自定义数据集进行微调。这些条目包括合成和人工筛选的数据,确保了生物医学主题的高质量和广泛覆盖。该模型经过训练,能够理解和生成与各种生物医学领域相关的文本,是生物医学领域研究人员、临床医生和其他专业人士的宝贵工具。
评估指标
Bio - Medical - Llama - 3 - 8B模型在许多领先的大语言模型中表现出色。以下是使用Eleuther AI语言模型评估框架针对medmcqa、medqa_4options、mmlu_anatomy、mmlu_clinical_knowledge、mmlu_college_biology、mmlu_college_medicine、mmlu_medical_genetics、mmlu_professional_medicine和pubmedqa等任务评估的指标。

预期用途和限制
Bio - Medical - Llama - 3 - 8B模型适用于生物医学领域的广泛应用,包括:
- 研究支持:协助研究人员进行文献综述和从生物医学文本中提取数据。
- 临床决策支持:提供信息以支持临床决策过程。
- 教育工具:作为医学生和专业人士扩展知识库的资源。
限制和伦理考虑
虽然Bio - Medical - Llama - 3 - 8B模型在各种生物医学NLP任务中表现良好,但用户应注意以下限制:
⚠️ 重要提示
- 偏差:模型可能继承训练数据中存在的偏差。虽然已努力策划平衡的数据集,但仍可能存在一些偏差。
- 准确性:模型的响应基于其所见数据中的模式,可能并不总是准确或最新的。用户应从可靠来源验证关键信息。
- 伦理使用:模型应负责任地使用,特别是在临床环境中,风险很高。它应补充而不是取代专业判断和专业知识。
训练超参数
以下超参数在训练过程中使用:
- 学习率:0.0002
- 训练批次大小:12
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:4
- 总训练批次大小:32
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:余弦
- 学习率调度器预热比例:0.03
- 训练步数:2000
- 混合精度训练:Native AMP
框架版本
- PEFT 0.11.0
- Transformers 4.40.2
- Pytorch 2.1.2
- Datasets 2.19.1
- Tokenizers 0.19.1
🔧 技术细节
Bio - Medical - Llama - 3 - 8B模型基于Llama - 3 - 8B - Instruct进行微调。在训练过程中,使用了自定义的高质量生物医学数据集,该数据集包含超500,000条多样条目,涵盖合成和人工筛选的数据,以确保对生物医学知识的全面覆盖。训练过程中采用了一系列超参数进行优化,如学习率、批次大小等,同时使用了混合精度训练以提高训练效率。评估时,使用了Eleuther AI语言模型评估框架针对多个生物医学任务进行评估,以确保模型在生物医学领域的性能。
📄 许可证
该模型遵循Bio - Medical - Llama - 3 - 8B(仅限非商业使用)许可协议。在使用模型之前,请仔细阅读条款和条件。
联系信息
如需了解有关Bio - Medical - Llama - 3 - 8B的更多信息、咨询或反馈问题,请联系:
- 邮箱:info@contactdoctor.in
- 网站:https://www.contactdoctor.in
引用
如果您在研究或应用中使用Bio - Medical - Llama - 3 - 8B模型,请按以下方式引用:
@misc{ContactDoctor_Bio-Medical-Llama-3-8B,
author = ContactDoctor,
title = {Bio-Medical: A High-Performance Biomedical Language Model},
year = {2024},
howpublished = {https://huggingface.co/ContactDoctor/Bio-Medical-Llama-3-8B},
}