零样本泛化
Sam Hq Vit Huge
Apache-2.0
SAM-HQ是Segment Anything Model(SAM)的增强版本,能够生成更高质量的物体掩码,特别适合处理复杂结构的物体。
图像分割
Transformers
S
syscv-community
516
2
Sam Hq Vit Large
Apache-2.0
SAM-HQ是Segment Anything Model(SAM)的增强版本,能够从点或框等输入提示生成更高质量的对象掩码。
图像分割
Transformers
S
syscv-community
60
1
Textflux
TextFlux是一个基于无OCR扩散变换器的高保真多语言场景文本合成模型,采用FLUX.1-Fill-dev作为基础模型,专注于场景文本合成任务。
图像生成
T
yyyyyxie
284
2
Visualclozepipeline 384
Apache-2.0
VisualCloze是一个基于视觉上下文学习的通用图像生成框架,支持多种领域内任务和未见任务的泛化,通过单步生成同时输出目标图像与中间结果。
文本生成图像
V
VisualCloze
294
5
Biqwen2 V0.1
Apache-2.0
BiQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,专注于高效视觉文档检索。
文本生成图像
英语
B
vidore
460
0
Poseless 3B
Apache-2.0
PoseLess是一种创新的机器人手部控制框架,通过使用投影表示直接将2D图像映射到关节角度,无需显式的姿态估计。
多模态融合
Transformers
P
homebrewltd
98
7
Poseless 3B
Apache-2.0
Poseless-3B 是一种基于视觉语言模型(VLM)的机器人手部控制框架,能够直接将2D图像映射到关节角度,无需显式姿态估计。
姿态估计
Transformers
P
Menlo
65
10
Colqwen2 V1.0 Hf
Apache-2.0
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能生成文本与图像的多向量表征
文本生成图像
Transformers
英语
C
vidore
61
0
Sam Hq Vit Base
Apache-2.0
SAM-HQ是Segment Anything Model的增强版本,通过点或框等输入提示生成更高质量的物体掩码
图像分割
Transformers
S
syscv-community
5,316
8
Colqwen2.5 V0.1
MIT
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的视觉检索模型,能够生成文本和图像的多向量表示,用于高效文档检索。
文本生成图像
英语
C
vidore
985
0
Colsmol 256M
MIT
基于SmolVLM-Instruct-250M并采用ColBERT策略的视觉检索器,能高效地从视觉特征索引文档
文本生成图像
英语
C
vidore
42.84k
8
Colsmolvlm V0.1
基于SmolVLM-Instruct与ColBERT策略的视觉检索模型,能高效通过视觉特征索引文档
文本生成图像
C
vidore
1,353
52
Lotus Depth D V1 0
Apache-2.0
Lotus是一个基于扩散模型的视觉基础模型,专注于高质量的密集预测任务。
3D视觉
L
jingheya
135
4
Lotus Depth G V1 0
Apache-2.0
Lotus是一个基于扩散模型的视觉基础模型,专注于高质量的密集预测任务。
3D视觉
L
jingheya
33.45k
21
Colqwen2 V0.1
Apache-2.0
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能高效通过视觉特征索引文档
文本生成图像
Safetensors
英语
C
vidore
21.25k
170
Colpali V1.2
MIT
ColPali是基于PaliGemma-3B与ColBERT策略的视觉语言模型,用于高效地从视觉特征中索引文档。
文本生成图像
英语
C
vidore
61.77k
108
Robustsam Vit Base
MIT
RobustSAM是在退化图像上实现稳健分割的模型,基于SAM改进,提升了在低质量图像上的分割性能。
图像分割
Transformers
其他
R
jadechoghari
314
3
Sam2 Hiera Large
Apache-2.0
FAIR研发的面向图像与视频可提示视觉分割的基础模型
图像分割
S
facebook
155.85k
68
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers
英语
O
openvla
1.7M
108
Openvla V01 7b
MIT
OpenVLA v0.1 7B是一个开源视觉-语言-动作模型,基于Open X-Embodiment数据集训练,支持多种机器人控制。
文本生成图像
Transformers
英语
O
openvla
30
10
Aisak Detect
其他
AISAK-Detect是AISAK-Visual系统的核心目标检测组件,采用卷积主干Transformer架构,高效精准识别图像中的物体。
目标检测
Transformers
英语
A
aisak-ai
19
0
Whisper Large V3
Apache-2.0
Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型,在超过500万小时的标注数据上训练,具有强大的跨数据集和跨领域泛化能力。
语音识别
支持多种语言
W
openai
4.6M
4,321
Llama 2 7b Absa
Apache-2.0
基于Llama-2-7b微调的ABSA模型,擅长识别文本中的方面并分析情感
大型语言模型
Transformers
支持多种语言
L
Orkhan
124
12
Biomednlp KRISSBERT PubMed UMLS EL
MIT
KRISSBERT是一个基于知识增强自监督学习的生物医学实体链接模型,通过利用无标注文本和领域知识训练上下文编码器,有效解决实体名称多样性变异和歧义性问题。
知识图谱
Transformers
英语
B
microsoft
4,643
29
Cxmefzzi
Apache-2.0
基于T5-3B架构微调的文本到SQL转换模型,通过PICARD约束解码技术显著提升结构化查询生成准确性
大型语言模型
Transformers
英语
C
tscholak
689
32