许可证:其他
许可证名称:健康AI开发者基础条款
许可证链接:https://developers.google.com/health-ai-developer-foundations/terms
语言:
- 英文
标签:
- 医学
- 病理学
- 数字病理学
- 医学嵌入
- 图像分类
- 图像特征提取
额外授权标题:在Hugging Face上获取Path Foundation
额外授权提示:>-
要访问Hugging Face上的Path Foundation,您需要审阅并同意健康AI开发者基础条款。
为此,请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。
额外授权按钮内容:确认许可证
Path Foundation模型卡片
模型文档:
Path Foundation
资源:
使用条款:
健康AI开发者基础条款
作者:Google
模型信息
本节介绍Path Foundation模型及其使用方法。
描述
Path Foundation是一个用于组织病理学应用的机器学习模型。它生成的嵌入可用于高效训练分类器模型,以在来自全切片图像(WSI)的苏木精和伊红(H&E)切片上进行病理分析任务,所需数据和计算资源更少。Path Foundation通过自监督学习训练,以从组织病理学WSI的224 x 224像素图像切片中创建嵌入。Path Foundation返回的嵌入是384维的浮点值向量,表示原始图像在压缩特征空间中的投影。
您可以在我们的论文《组织病理学自监督模型的领域特定优化和多样化评估》中了解更多关于研究和基础模型的信息。
使用方法
以下是一些示例代码片段,帮助您快速开始本地运行模型。如果您想大规模使用该模型,我们建议您使用Model Garden创建生产版本。
from PIL import Image as PILImage
from huggingface_hub import hf_hub_download, from_pretrained_keras
import tensorflow as tf
import numpy as np
hf_hub_download(repo_id="google/path-foundation", filename='Test.png', local_dir='.')
img = PILImage.open("Test.png").crop((0, 0, 224, 224)).convert('RGB')
tensor = tf.cast(tf.expand_dims(np.array(img), axis=0), tf.float32) / 255.0
loaded_model = from_pretrained_keras("google/path-foundation")
infer = loaded_model.signatures["serving_default"]
embeddings = infer(tf.constant(tensor))
embedding_vector = embeddings['output_0'].numpy().flatten()
示例
查看以下Colab笔记本,了解如何使用Path Foundation:
模型架构概述
Path Foundation使用ViT-S架构,并通过《掩码孪生网络》在不同放大倍数下进行训练,结合领域特定的调整和优化。模型提供的特征表示为组织病理学中的下游任务提供了强大的输入。更多信息可在预印本《组织病理学自监督模型的领域特定优化和多样化评估》中找到。
技术规格
性能和验证
线性探针评估在11个基准任务上进行,涉及17种独特的组织类型,涵盖不同的最佳放大倍数和任务类型。更多细节请参见论文,包括幻灯片级任务(如组织类型分类和分子发现)和数据滴定微调的额外结果。
关键性能指标
- 93% - 一套组织病理学分类任务的线性探针AUC。95%置信区间:[92.9 - 93.8]
输入和输出
数据集详情
训练数据集
训练数据包括来自癌症基因组图谱(TCGA)的苏木精和伊红染色(H&E)WSI,访问地址为https://portal.gdc.cancer.gov。训练使用了6000万个切片,涵盖三个放大倍数(约2 µm/像素、约1 µm/像素、约0.5 µm/像素)和32个实体瘤TCGA研究(代表不同的癌症类型,训练数据包括肿瘤和多样化的非肿瘤切片)。
标注
模型通过自监督学习训练,意味着未使用监督标签。用于测量模型在下游任务上性能的标签通过病理学家注释或幻灯片级元数据提供。
有关下游任务使用的数据和标签的更多信息,请参见以下参考文献:
- Benjordi, B. 等。《深度学习算法在乳腺癌淋巴结转移检测中的诊断评估》。JAMA(2017)。
- Jaroensri, R. 等。《乳腺癌组织学分级的深度学习模型及其与疾病预后的关联》。npj Breast Cancer 8, 1–12(2022)。
- Liu, Y. 等。《基于人工智能的乳腺癌淋巴结转移检测:病理学家的黑箱洞察》。Arch. Pathol. Lab. Med. 143, (2019)。
- Lai, J. 等。《组织病理学自监督模型的领域特定优化和多样化评估》。arXiv(2023)。
- Nagpal, K. 等。《前列腺癌活检标本Gleason分级的深度学习算法的开发和验证》。JAMA Oncol 6, 1372–1380(2020)。
- Nagpal, K. 等。《改进前列腺癌Gleason评分的深度学习算法的开发和验证》。npj Digital Medicine 2, 1–10(2019)。
- Sadhwani, A. 等。《使用组织病理学图像对肺腺癌肿瘤突变负荷进行分类的机器学习方法的比较分析》。Sci. Rep. 11, 1–11(2021)。
- Wulczyn, E. 等。《结直肠癌的可解释生存预测》。NPJ Digital Medicine 4, (2021)。
- Weng, WH. 等。《病理生物库元数据预测的多模态多任务表示学习》。arXiv(2019)。
许可证
Path Foundation的使用受健康AI开发者基础条款约束。
数据引用
Path Foundation的结果部分或全部基于TCGA研究网络生成的数据。
实现信息
本节提供有关模型内部的详细信息。
软件
训练使用JAX完成。JAX允许研究人员利用最新一代硬件(包括TPU)更快、更高效地训练大型模型。
使用和限制
预期用途
-
Path Foundation可以减少开发H&E病理幻灯片特定任务模型所需的训练数据、计算和技术专业知识。
-
模型的嵌入可用于各种用户定义的下游任务,包括但不限于:癌症检测、分类和分级;元数据预测(染色、组织类型、标本类型等);质量评估(如成像伪影);以及相似图像搜索。
-
嵌入还可用于探索组织病理学图像的特征空间,以开发与预后和预测任务相关的生物标志物。
优势
-
Path Foundation嵌入可用于高效训练H&E组织病理学图像分析的AI开发,所需数据和计算资源显著少于传统方法。
-
通过利用Path Foundation训练的大量预训练图像集,用户需要更少的数据,但可以构建比在更有限的数据集上训练的模型更通用的模型。
-
提供丰富、压缩的组织病理学图像切片表示。
-
帮助用户为各种不同应用构建AI分类器,所需数据和计算资源更少。
限制
以下是可能降低模型性能或减少对模型结果信心的已知因素:
-
该模型仅在有限数量的潜在H&E组织病理学下游任务上进行了验证。
-
此模型版本仅在来自有限数量的扫描仪和国家的H&E图像上进行了训练和验证。
-
模型输出可能无法很好地泛化到训练中未使用的其他图像类型、患者群体或扫描仪制造商的数据。
-
任务特定验证仍然是终端用户下游模型开发的重要方面。
-
训练和验证在对应于5x、10x和20x放大倍数(约2 µm/像素、约1 µm/像素和约0.5 µm/像素)的切片上进行。使用对应于其他放大倍数的输入切片尚未评估。
-
该模型仅用于生成用户提供数据的嵌入。它本身不生成任何预测或诊断。
-
与任何研究一样,开发人员应确保任何下游应用都经过验证,以了解在使用适当代表特定应用预期使用环境的数据(如年龄、性别、条件、扫描仪等)时的性能。