多任务统一框架
Q Sit Mini
MIT
Q-SiT是一款基于大语言模型的图像质量评分与解析系统,能够同步执行图像质量评估和解析任务。
图像生成文本
Transformers
Q
zhangzicheng
371
0
Inspiremusic 1.5B
Apache-2.0
InspireMusic是一个专注于音乐生成、歌曲生成和音频生成的统一框架,支持高音质和长篇幅音乐生成。
音频生成
英语
I
FunAudioLLM
31
6
Lotus Depth D V1 0
Apache-2.0
Lotus是一个基于扩散模型的视觉基础模型,专注于高质量的密集预测任务。
3D视觉
L
jingheya
135
4
Yayi Uie
Apache-2.0
雅意IE大模型是基于百万级人工标注的高质量信息抽取数据进行指令微调的统一大模型,支持通用领域及多个垂直领域的信息抽取任务。
大型语言模型
Transformers
Y
wenge-research
108
27
Blip Image Captioning Base Football Finetuned
Bsd-3-clause
基于COCO预训练并在足球数据集微调的视觉-语言模型,擅长生成图像描述
图像生成文本
Transformers
B
ybelkada
71
2
Mask2former Swin Large Mapillary Vistas Panoptic
其他
基于Swin骨干网络的Mask2Former大尺寸版本,专为全景分割任务设计,在Mapillary Vistas数据集上训练
图像分割
Transformers
M
facebook
2,750
2
Mask2former Swin Large Mapillary Vistas Semantic
其他
基于Swin骨干网络的大规模Mask2Former模型,专为通用图像分割任务设计,统一处理实例分割、语义分割和全景分割。
图像分割
Transformers
M
facebook
5,539
3
Mask2former Swin Small Cityscapes Panoptic
其他
基于Swin骨干网络的小型Mask2Former模型,专为Cityscapes数据集的全景分割任务优化
图像分割
Transformers
M
facebook
568
0
Mask2former Swin Small Coco Panoptic
其他
基于Swin骨干网络的Mask2Former小规模版本,专为COCO数据集全景分割任务优化
图像分割
Transformers
M
facebook
240
1
Mask2former Swin Large Coco Panoptic
其他
基于Swin骨干网络的Mask2Former大型版本,专为COCO数据集全景分割任务训练的统一图像分割模型
图像分割
Transformers
M
facebook
37.67k
30
Ul2
Apache-2.0
UL2是一个统一的预训练模型框架,采用混合去噪器(MoD)作为预训练目标,结合多种预训练范式,在各种数据集和设置中表现普遍有效。
大型语言模型
Transformers
英语
U
google
463
177
Ke T5 Base
Apache-2.0
KE-T5是基于T5架构的文本到文本转换模型,由韩国电子技术研究院开发,支持多种NLP任务。
大型语言模型
支持多种语言
K
KETI-AIR
3,197
22
T5 3b
Apache-2.0
T5-3B是由Google开发的30亿参数文本到文本转换Transformer模型,采用统一的文本到文本框架处理多种NLP任务。
大型语言模型
Transformers
支持多种语言
T
google-t5
340.75k
46
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型
支持多种语言
T
google-t5
5.4M
702
T5 Large
Apache-2.0
T5-Large是Google开发的文本到文本转换Transformer模型,具有7.7亿参数,支持多种NLP任务。
大型语言模型
支持多种语言
T
google-t5
422.02k
204