🚀 QuiltNet-B-16-PMB
QuiltNet-B-16-PMB是一个基于视觉语言的基础模型,结合了ViT-B/16图像塔和PubMedBERT文本塔。它在从代表性组织病理学视频中精心策划的Quilt-1M数据集上进行训练,可执行跨模态检索、图像分类和视觉问答等多种视觉语言处理(VLP)任务。
🚀 快速开始
你可以通过以下示例快速体验模型的零样本图像分类功能:
组织表型分析
候选标签:adipose tissue, debris tissue, lymphocytes tissue, mucus tissue, smooth muscle tissue, normal colon mucosa tissue, cancer-associated stroma tissue, colorectal adenocarcinoma epithelium tissue
鳞状细胞癌组织病理学分析
候选标签:adenocarcinoma histopathology, squamous cell carcinoma histopathology
腺癌组织病理学分析
候选标签:adenocarcinoma histopathology, squamous cell carcinoma histopathology
✨ 主要特性
- 广泛的任务支持:能够执行跨模态检索、图像分类和视觉问答等多种视觉语言处理(VLP)任务。
- 优异的性能表现:在各种标准数据集上建立了新的技术水平,显著优于先前的VLP方法。

📚 详细文档
引用信息
如果你使用了该模型,请引用以下文献:
@misc{ikezogwo2023quilt1m,
title={Quilt-1M: One Million Image-Text Pairs for Histopathology},
author={Wisdom Oluchi Ikezogwo and Mehmet Saygin Seyfioglu and Fatemeh Ghezloo and Dylan Stefan Chan Geva and Fatwir Sheikh Mohammed and Pavan Kumar Anand and Ranjay Krishna and Linda Shapiro},
year={2023},
eprint={2306.11207},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
用途说明
直接用途
零样本图像分类、图像和文本检索等。
下游用途
图像分类和其他图像任务的微调、线性探针图像分类、图像生成的引导和条件设置等。
预期用途
该模型旨在作为研究成果供研究社区使用。我们希望该模型能够帮助研究人员更好地理解和探索零样本、任意图像分类。同时,我们也希望它能用于跨学科研究,探讨此类模型的潜在影响。
主要预期用户
这些模型的主要预期用户是人工智能研究人员。
我们主要设想研究人员将使用该模型来更好地理解计算机视觉组织病理学模型的鲁棒性、泛化能力以及其他能力、偏差和局限性。
超出范围的用例
任何模型的部署用例(无论是否商业用途)目前都超出了范围。非部署用例,如在受限环境中的图像搜索,也不建议使用,除非对模型进行了特定、固定类别的分类法的全面领域内测试。
由于该模型未针对英语以外的任何语言进行专门训练或评估,其使用应限于英语用例。
此外,用于训练这些模型的Quilt-1M数据集还有其他注意事项,请见下文。
训练数据
该模型使用QUILT-1M进行训练,这是一个用于组织病理学的图像文本数据集。
QUILT-1M从YouTube上的教育视频中精心策划,为组织病理学的视觉语言建模贡献了最大的数据集。
⚠️ 重要提示
创建该数据集的动机是为了推动围绕大规模多模态模型训练以及处理从公开互联网爬取的未整理的大规模组织病理学数据集的研究和实验。因此,我们建议将该数据集用于研究目的。
评估
使用CLIP Benchmark suite中的代码进行评估,评估结果可在论文中找到,涵盖了一系列不同的组织学任务和数据集。
免责声明
需要注意的是,从该功能获得的结果无意构成医疗建议,也不能替代与合格医疗专业人员的咨询。使用该功能完全由你自行承担风险,并且应符合适用的法律、法规和道德考虑。我们不保证该功能对于任何特定目的的准确性、完整性、适用性或有用性,并且在此声明不承担因依赖该功能或使用其获得的任何结果而产生的任何责任。
隐私政策
根据YouTube的隐私政策,我们仅重新分发视频ID数据。
严格禁止重新分发除视频ID以外的任何内容。
任何分发行为都必须遵守你所在司法管辖区适用的法律法规,包括出口管制法律和禁运规定。
📄 许可证
本项目采用MIT许可证。