多模态学习

# 多模态学习

Openvision Vit So400m Patch14 384

OpenVision是一个完全开放、经济高效的高级视觉编码器家族，用于多模态学习。

多模态融合

Openvision Vit Base Patch8 384

OpenVision是一个完全开源且经济高效的先进视觉编码器家族，专为多模态学习设计。

多模态融合

Openvision Vit Base Patch16 160

OpenVision是一个完全开源、经济高效的高级视觉编码器家族，用于多模态学习。

多模态融合

Openvision Vit Small Patch8 384

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Openvision Vit Small Patch16 224

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

一个基于PyTorch的动作识别模型，适用于机器人技术领域

Eagle 2.5是一款前沿的视觉语言模型（VLM），专为长上下文多模态学习设计，支持处理长达512帧的视频序列和高分辨率图像。

文本生成图像

Transformers 其他

Wedgit Stack Single Fixed

一个基于扩散策略的机器人控制模型，通过PyTorchModelHubMixin集成发布

多模态融合

InstructCLIP是一种通过对比学习自动优化数据的模型，旨在提升指令引导的图像编辑效果。

文本生成图像英语

Genmedclip B 16 PMB

基于open_clip库的零样本图像分类模型，专注于医疗领域的图像分析

GenMedClip 是一个基于 open_clip 库的零样本图像分类模型，专注于医学图像分析。

Moe LLaVA Qwen 1.8B 4e

MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型，通过稀疏激活参数实现高效的多模态学习

文本生成图像

一个基于开放剪辑库的零样本图像分类模型，支持多种视觉任务

mkaichristensen

基于微软GIT框架的多模态模型，专注于从学生作业图像中提取文本并生成教师反馈

图像生成文本

Transformers 支持多种语言

Git Base Textvqa

基于microsoft/git-base-textvqa在textvqa数据集上微调的视觉问答模型，擅长处理包含文本的图像问答任务

大型语言模型

Transformers 其他

基于naver-clova-ix/donut-base微调的模型，具体用途未明确说明

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24