多模态统一框架

# 多模态统一框架

Harmon是一种创新的统一多模态理解与生成框架，通过共享的MAR编码器协调理解与生成的视觉表征，在文本生成图像和多模态理解任务中表现优异。

文本生成图像英语

Janus-Pro是一种新颖的自回归框架，统一了多模态理解和生成任务，通过解耦视觉编码增强灵活性。

文本生成图像

deepseek-community

Data2vec Vision Base Ft1k

Data2Vec-Vision是基于BEiT架构的自监督学习模型，在ImageNet-1k数据集上微调，适用于图像分类任务。

Data2vec Vision Base

Data2Vec-Vision是基于BEiT架构的自监督学习模型，在ImageNet-1k数据集上预训练，适用于图像分类任务。

Data2vec Audio Large 960h

Data2Vec是一个通用自监督学习框架，适用于语音、视觉和语言任务。该音频大模型基于LibriSpeech的960小时语音数据预训练和微调，专为自动语音识别任务优化。

Transformers 英语

Data2vec Audio Large 100h

Data2Vec是一个通用的自监督学习框架，适用于语音、自然语言处理和计算机视觉任务。该模型是基于Librispeech语音音频进行100小时预训练和微调的大模型。

Transformers 英语

Data2vec Audio Large 10m

Data2Vec是一个通用的自监督学习框架，适用于语音、视觉和语言任务。该音频大模型基于Librispeech的10分钟数据进行预训练和微调，适用于16kHz采样的语音音频。

Transformers 英语

Data2vec Audio Large

Data2Vec-Audio-Large是基于16kHz采样语音音频预训练的大型模型，采用自监督学习框架，适用于语音识别等任务。

Transformers 英语

Data2vec Audio Base 100h

Data2Vec是一个通用的自监督学习框架，适用于语音、视觉和语言任务。该音频基础模型基于Librispeech语音音频进行了100小时的预训练和微调。

Transformers 英语

Data2vec Text Base

采用data2vec目标对英语语言进行预训练的通用自监督学习框架，通过统一方法处理不同模态任务

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24