🚀 LLaVA - Med v1.5
LLaVA - Med v1.5使用mistralai/Mistral - 7B - Instruct - v0.2作为大语言模型(LLM),具备更优的商业许可。它是一个面向生物医学领域的大语言与视觉模型,采用课程学习方法将LLaVA适配到生物医学领域。此模型为开源发布,仅用于研究,以促进对应论文研究结果的可复现性。该论文称,LLaVA - Med在开放式生物医学问答任务中表现出色,在PathVQA和VQA - RAD等常见视觉问答(VQA)基准数据集上有良好性能。
🚀 快速开始
LLaVA - Med由Chunyuan Li、Cliff Wong、Sheng Zhang、Naoto Usuyama、Haotian Liu、Jianwei Yang、Tristan Naumann、Hoifung Poon、Jianfeng Gao等人在论文LLaVA - Med: Training a Large Language - and - Vision Assistant for Biomedicine in One Day中提出。
- 模型日期:LLaVA - Med - v1.5 - Mistral - 7B于2024年4月完成训练。
- 更多信息的论文或资源:https://aka.ms/llava - med
- 反馈模型问题或建议的地址:https://github.com/microsoft/LLaVA - Med/issues
✨ 主要特性
LLaVA - Med使用课程学习方法将LLaVA适配到生物医学领域,在开放式生物医学问答任务中表现良好,能在PathVQA和VQA - RAD等常见视觉问答基准数据集上取得较好成绩。
📚 详细文档
许可证
采用mistralai/Mistral - 7B - Instruct - v0.2的许可证。
预期用途
- 主要预期用途:数据、代码和模型检查点仅用于(I)未来视觉语言处理研究;(II)复现参考论文中报告的实验结果。主要是为了支持AI研究人员复现和拓展此项工作,LLaVA - Med及其相关模型有助于探索各种生物医学视觉语言处理(VLP)和视觉问答(VQA)研究问题。
- 非预期用途:模型的任何部署用例(商业或其他)均不在预期范围内。尽管使用了广泛的公开研究基准对模型进行评估,但模型和评估仅用于研究,不适用于部署用例。更多详情请参考[相关论文](https://aka.ms/llava - med)。
数据
该模型基于[PMC - 15M数据集](https://aka.ms/biomedclip - paper)构建,这是一个用于生物医学视觉语言处理的大规模并行图像 - 文本数据集。它包含从PubMed Central生物医学研究文章中提取的1500万对图像 - 文本对,涵盖了显微镜、放射学、组织学等多种生物医学图像类型。
使用方法
请参考[LLaVA - Med仓库](https://aka.ms/llava - med)中的服务和评估部分。
局限性
- 该模型基于英文语料开发,可视为仅支持英文。它在[LLaVA - Med论文](https://aka.ms/llava - med)中描述的有限生物医学基准任务上进行评估,因此不适合在任何临床环境中使用。在某些情况下,模型可能会做出不准确的预测并表现出局限性,可能需要额外的缓解策略。特别是,该模型可能继承了其派生模型[LLaVA](https://llava - vl.github.io/)的许多局限性。
- 该模型部分使用[PMC - 15M](https://aka.ms/biomedclip - paper)数据集开发。构成该数据集的图像 - 文本对可能存在反映当前学术出版实践的偏差。例如,相应的论文可能更倾向于积极的研究结果,包含极端案例,并且反映的分布可能不能代表其他生物医学数据源。
BibTeX引用和引用信息
@article{li2023llavamed,
title={Llava-med: Training a large language-and-vision assistant for biomedicine in one day},
author={Li, Chunyuan and Wong, Cliff and Zhang, Sheng and Usuyama, Naoto and Liu, Haotian and Yang, Jianwei and Naumann, Tristan and Poon, Hoifung and Gao, Jianfeng},
journal={arXiv preprint arXiv:2306.00890},
year={2023}
}