sam-vit-large开源图像分割模型 - 依输入点生成高质量对象掩模

首页

Sam Vit Large

由 Xenova 开发

基于视觉Transformer架构的大规模图像分割模型，能够根据输入点生成高质量对象掩模

图像分割

Transformers

其他#图像分割 #ONNX兼容 #零样本学习

下载量 34

发布时间 : 5/31/2023

模型简介

Segment Anything Model (SAM) 是一种通用的图像分割模型，能够根据用户提供的输入点（如点击）自动生成精确的对象掩模。该模型基于Vision Transformer架构，具有强大的零样本迁移能力。

模型特点

零样本分割能力

无需特定领域训练即可处理各种图像分割任务

交互式分割

通过简单的输入点即可引导模型生成精确的对象掩模

高质量输出

能够生成精细的对象边界和多个候选掩模

Web兼容性

提供ONNX格式权重，支持在浏览器环境中运行

模型能力

交互式图像分割

对象掩模生成

多候选结果输出

零样本图像理解

使用案例

图像编辑

对象移除与替换

通过简单点击选择对象后生成精确掩模，用于照片编辑

实现精确的对象分离效果

计算机视觉辅助标注

半自动数据标注

大幅减少人工标注工作量

标注效率提升3-5倍

AR/VR应用

实时对象分割

在增强现实场景中实时分离前景对象

🚀 基于Transformers.js的SAM模型

本项目将facebook/sam-vit-large模型转换为ONNX权重，以适配Transformers.js库，可在Web环境中使用该模型进行图像分割任务。

🚀 快速开始

安装依赖

如果你还没有安装Transformers.js JavaScript库，可以使用以下命令从NPM进行安装：

npm i @huggingface/transformers

💻 使用示例

基础用法

以下示例展示了如何使用Xenova/sam-vit-large模型进行掩码生成：

import { SamModel, AutoProcessor, RawImage } from "@huggingface/transformers";

// 加载模型和处理器
const model = await SamModel.from_pretrained("Xenova/sam-vit-large");
const processor = await AutoProcessor.from_pretrained("Xenova/sam-vit-large");

// 准备图像和输入点
const img_url = "https://huggingface.co/datasets/Xenova/transformers.js-docs/resolve/main/corgi.jpg";
const raw_image = await RawImage.read(img_url);
const input_points = [[[340, 250]]];

// 处理输入并进行掩码生成
const inputs = await processor(raw_image, { input_points });
const outputs = await model(inputs);

// 后处理掩码
const masks = await processor.post_process_masks(outputs.pred_masks, inputs.original_sizes, inputs.reshaped_input_sizes);
console.log(masks);
// [
//   Tensor {
//     dims: [ 1, 3, 410, 614 ],
//     type: 'bool',
//     data: Uint8Array(755220) [ ... ],
//     size: 755220
//   }
// ]
const scores = outputs.iou_scores;
console.log(scores);
// Tensor {
//   dims: [ 1, 1, 3 ],
//   type: 'float32',
//   data: Float32Array(3) [
//     1.0122944116592407,
//     0.9184409976005554,
//     0.9796935319900513
//   ],
//   size: 3
// }

可视化掩码

你可以使用以下代码将生成的掩码进行可视化：

const image = RawImage.fromTensor(masks[0][0].mul(255));
image.save('mask.png');

image/png

提取主体

接下来，选择IoU分数最高的通道（在本例中为第一个通道，即红色通道），将其与原始图像相交，即可得到主体的分割结果： image/gif

📚 详细文档

在线演示

我们还提供了一个在线演示，你可以点击这里进行尝试：

⚠️ 重要提示

目前为ONNX权重单独创建仓库是一种临时解决方案，直到WebML得到更广泛的应用。如果你想让你的模型适用于Web环境，建议使用🤗 Optimum将模型转换为ONNX格式，并按照本仓库的结构进行组织（将ONNX权重放在名为onnx的子文件夹中）。

📦 模型信息

属性	详情
基础模型	facebook/sam-vit-large
库名称	transformers.js

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文