零样本泛化

# 零样本泛化

基于Qwen3-1.7B微调，通过强化学习技术提升数学推理能力的语言模型

大型语言模型

Safetensors 英语

Sam Hq Vit Huge

SAM-HQ是Segment Anything Model（SAM）的增强版本，能够生成更高质量的物体掩码，特别适合处理复杂结构的物体。

syscv-community

Sam Hq Vit Large

SAM-HQ是Segment Anything Model（SAM）的增强版本，能够从点或框等输入提示生成更高质量的对象掩码。

syscv-community

TextFlux是一个基于无OCR扩散变换器的高保真多语言场景文本合成模型，采用FLUX.1-Fill-dev作为基础模型，专注于场景文本合成任务。

Visualclozepipeline 384

VisualCloze是一个基于视觉上下文学习的通用图像生成框架，支持多种领域内任务和未见任务的泛化，通过单步生成同时输出目标图像与中间结果。

文本生成图像

BiQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，专注于高效视觉文档检索。

文本生成图像英语

PoseLess是一种创新的机器人手部控制框架，通过使用投影表示直接将2D图像映射到关节角度，无需显式的姿态估计。

多模态融合

Poseless-3B 是一种基于视觉语言模型（VLM）的机器人手部控制框架，能够直接将2D图像映射到关节角度，无需显式姿态估计。

Sam Hq Vit Base

SAM-HQ是Segment Anything Model的增强版本，通过点或框等输入提示生成更高质量的物体掩码

syscv-community

Colqwen2 V1.0 Hf

基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，能生成文本与图像的多向量表征

文本生成图像

Transformers 英语

Colqwen2.5 V0.1

基于Qwen2.5-VL-3B-Instruct与ColBERT策略的视觉检索模型，能够生成文本和图像的多向量表示，用于高效文档检索。

文本生成图像英语

基于SmolVLM-Instruct-250M并采用ColBERT策略的视觉检索器，能高效地从视觉特征索引文档

文本生成图像英语

Colsmolvlm V0.1

基于SmolVLM-Instruct与ColBERT策略的视觉检索模型，能高效通过视觉特征索引文档

文本生成图像

Lotus Depth D V1 0

Lotus是一个基于扩散模型的视觉基础模型，专注于高质量的密集预测任务。

Lotus Depth G V1 0

Lotus是一个基于扩散模型的视觉基础模型，专注于高质量的密集预测任务。

基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，能高效通过视觉特征索引文档

文本生成图像

Safetensors 英语

ColPali是基于PaliGemma-3B与ColBERT策略的视觉语言模型，用于高效地从视觉特征中索引文档。

文本生成图像英语

Robustsam Vit Base

RobustSAM是在退化图像上实现稳健分割的模型，基于SAM改进，提升了在低质量图像上的分割性能。

Transformers 其他

Sam2 Hiera Large

FAIR研发的面向图像与视频可提示视觉分割的基础模型

OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型，能够根据语言指令和摄像头图像生成机器人动作。

图像生成文本

Transformers 英语

OpenVLA v0.1 7B是一个开源视觉-语言-动作模型，基于Open X-Embodiment数据集训练，支持多种机器人控制。

文本生成图像

Transformers 英语

AISAK-Detect是AISAK-Visual系统的核心目标检测组件，采用卷积主干Transformer架构，高效精准识别图像中的物体。

Transformers 英语

Whisper Large V3

Whisper是由OpenAI提出的先进自动语音识别(ASR)和语音翻译模型，在超过500万小时的标注数据上训练，具有强大的跨数据集和跨领域泛化能力。

语音识别支持多种语言

Llama 2 7b Absa

基于Llama-2-7b微调的ABSA模型，擅长识别文本中的方面并分析情感

大型语言模型

Transformers 支持多种语言

Biomednlp KRISSBERT PubMed UMLS EL

KRISSBERT是一个基于知识增强自监督学习的生物医学实体链接模型，通过利用无标注文本和领域知识训练上下文编码器，有效解决实体名称多样性变异和歧义性问题。

Transformers 英语

基于T5-3B架构微调的文本到SQL转换模型，通过PICARD约束解码技术显著提升结构化查询生成准确性

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24