零样本迁移学习

# 零样本迁移学习

Openvision Vit Huge Patch14 224

OpenVision是一个全开放、高性价比的先进视觉编码器家族，专注于多模态学习。

多模态融合

Florence 2 Large DOTA V1.0 Lmmrotate

LMMRotate是一个针对旋转目标检测任务微调的大型多模态语言模型，特别适用于航拍图像分析。

图像生成文本

TensorBoard 英语

Aimv2 3b Patch14 224.apple Pt

AIM-v2是一个高效的图像编码器模型，兼容timm框架，适用于计算机视觉任务。

Paligemma2 10b Pt 896

PaliGemma 2是Google推出的视觉语言模型(VLM)，融合Gemma 2能力，支持图像和文本输入生成文本输出

图像生成文本

Paligemma2 10b Pt 448

PaliGemma 2是Google推出的升级版视觉语言模型(VLM)，融合Gemma 2能力，支持图像和文本输入生成文本输出。

图像生成文本

Paligemma2 3b Pt 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Aimv2 Large Patch14 336 Distilled

AIMv2是基于多模态自回归目标预训练的视觉模型系列，在多模态理解基准测试中表现优异

Ssast Small Patch Audioset 16 16

基于AudioSet和Librispeech预训练的音频分类模型，采用视觉变换器架构处理音频频谱图

基于OpenAI的ViT-L-14模型，使用PMC_OA_beta和roco数据集进行微调的视觉语言模型，专注于生物医学领域的文本到图像任务

文本生成图像英语

Segformer B0 Finetuned Food

基于 Transformers 库的图像分割模型，支持多种图像分割任务。

Transformers 英语

Autotrain Vision Tcg 40463105224

这是一个通过AutoTrain训练的多类别图像分类模型，在验证集上表现出色，所有评估指标均达到1.0。

BLOOMZ-7B1 是一个多语言、多任务的大规模语言模型，支持超过40种语言和多种编程语言，适用于文本生成、情感分析等多种自然语言处理任务。

大型语言模型

Transformers 支持多种语言

Wav2vec2 Xlsr 53 Espeak Cv Ft

该模型是基于wav2vec2-large-xlsr-53预训练模型在CommonVoice数据集上微调的多语言音素识别模型，支持多种语言的音素标签识别。

Wav2vec2 Lv 60 Espeak Cv Ft

该模型是基于Wav2Vec2-Large-LV60预训练模型，在CommonVoice数据集上进行微调，用于多语言音素识别。

Transformers 其他

mT5是T5模型的多语言变体，支持101种语言，基于mC4语料库进行预训练，适用于多语言文本生成和理解任务。

大型语言模型支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24