多模态转换

# 多模态转换

Huihui Gemma 3n E4B It Abliterated GGUF

这是一个基于Gemma模型的静态量化版本，适用于自动语音识别、自动语音翻译等多种任务。

大型语言模型

Transformers 英语

Gemma 3n E4B It MLX Bf16

Gemma-3n-E4B-it 是由 Google 开发的模型，经过 MLX 量化优化，特别适用于苹果硅芯片设备。

大型语言模型

lmstudio-community

Index Anisora 5B Diffusers

基于Diffusers实现的图像生成视频模型，5B参数规模

文本生成视频

Hunyuanvideo I2V

腾讯HunyuanVideo-I2V是一个基于Diffusers的图像转视频模型，能够将静态图像转换为动态视频。

图像生成文本

hunyuanvideo-community

Google.gemma 3 4b Pt GGUF

这是一个图像文本转文本的模型，基于 google/gemma-3-4b-pt 的量化版本，致力于让知识为大众所共享。

大型语言模型

Minicpm O 2 6 GGUF

MiniCPM-o-2_6 是一个多模态转换模型，支持多种语言，适用于多种任务。

文本生成图像其他

这是一个图像文本到文本的转换模型，能够处理图像和文本输入，生成相应的文本输出。

文本生成图像

Ioskef 23 11 06

这是为OMEGA Labs与Bittensor合作的任意到任意子网提供的模型检查点，旨在实现通用人工智能任务。

大型语言模型其他

Kljrklqejr 23 11 24

由OMEGA Labs与Bittensor合作开发的任意到任意转换模型，专注于人工通用智能领域。

大型语言模型其他

Kljrklqejr 23 11 23

由OMEGA Labs与Bittensor合作开发的Any-to-Any模型，支持多种任务转换

大型语言模型其他

Ioskef 23 11 05

OMEGA Labs与Bittensor合作的任意到任意子网模型，专注于通用人工智能任务。

大型语言模型其他

Vit GPT2 Image Captioning Model

基于ViT-GPT2架构的图像描述生成模型，能够将输入图像转换为描述性文本

图像生成文本

Vchitect 2.0 2B

Vchitect-2.0是一个用于扩展视频扩散模型的并行Transformer模型，专注于文本生成视频和图像生成视频任务。

Sd3 Long Captioner

PaliGemma 224x224在google/docci和google/imageinwords数据集上的微调版本，用于图像文本到文本的转换

图像生成文本

Transformers 支持多种语言

4M是一个通过标记化与掩码技术实现多模态扩展的'任意到任意'基础模型训练框架

多模态融合

这是一个基于transformers的图像到文本转换模型，具体功能需进一步补充

图像生成文本

4M 7 SR L CC12M

4M是一个可扩展的多模态掩码建模框架，支持任意到任意模态转换，覆盖数十种模态和任务。

多模态融合

4M是一个训练'任意到任意'多模态基础模型的框架，通过标记化和掩码技术扩展到多种不同模态。

多模态融合

Spydazwebai Image Projectors

一个基于 Transformers 库的图像转文本模型，支持将图像内容转换为描述性文本，适用于艺术领域。

图像生成文本支持多种语言

Hashtaggenerater

Flickr30k 是一个用于图像到文本任务的英文数据集，常用于图像描述生成模型的训练和评估。

图像生成文本

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24