端到端训练

# 端到端训练

Coco Instance Eomt Large 1280

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，展示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Giant 1280

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，揭示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Large 1280

该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型，揭示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Large 640

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，展示了ViT在图像分割任务中的潜力。

Ade20k Panoptic Eomt Giant 640

该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力，通过特定架构调整使其适用于分割任务。

Coco Panoptic Eomt Large 1280

该论文提出了一种新的视角，将Vision Transformer (ViT) 视为图像分割模型，并探讨了其在图像分割任务中的潜力。

Ade20k Semantic Eomt Large 512

该模型基于论文《你的ViT实际上是图像分割模型》开发，是一种用于图像分割任务的视觉Transformer模型。

Coco Panoptic Eomt Large 640

该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力，通过特定架构调整使其适用于分割任务。

Coco Instance Eomt Large 640

该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法，展示了ViT在图像分割任务中的潜力。

Coco Panoptic Eomt Giant 1280

该模型通过重新思考Vision Transformer (ViT) 的架构，展示了其在图像分割任务中的潜力。

Detr Finetuned Chess

这是一个基于DETR架构的目标检测模型，专门针对国际象棋棋子识别任务进行了微调。

魔术师是首个具备自由形式多图像定位能力的多模态大语言模型，在复杂多图像场景中实现精确定位，性能超越70B规模模型。

文本生成图像

Transformers 英语

YOLOv10x 是 YOLO 系列的最新版本，专注于实时端到端目标检测，提供更高的检测精度和更快的推理速度。

YOLOv10 是一个实时端到端目标检测模型，由清华大学团队开发，基于 YOLO 系列的最新改进版本。

YOLOv10 是一个实时端到端目标检测模型，由清华大学团队开发，基于 YOLO 系列的最新改进版本。

YOLOv10是清华大学提出的实时端到端目标检测模型，具有高效和准确的特点。

YOLOv10是一种实时目标检测模型，通过消除非极大值抑制（NMS）等后处理步骤，实现了高效且无额外开销的目标检测。

从零构建的大语言模型，包含分词器训练、模型初始化、预训练与指令微调全流程开源实现

大型语言模型

Detr Resnet 50 Sku110k

该DETR模型在SKU110K目标检测数据集上进行了端到端训练，查询数设置为400，适用于商品货架检测等场景。

Control V11p Sd15 Inpaint

ControlNet v1.1 是一个基于扩散模型的神经网络结构，用于通过额外条件控制图像生成，特别适用于图像修复任务。

图像生成其他

Mamba 3B Slimpj

基于Mamba架构的3B参数规模的语言模型，支持英文文本生成任务。

大型语言模型

Transformers 英语

Detr Resnet 50 Finetuned Cppe5

基于facebook/detr-resnet-50在图像文件夹数据集上微调的DETR目标检测模型

Segformer B0 Finetuned V0

基于nvidia/mit-b0在tontokoton/artery-ultrasound-siit数据集上微调的图像分割模型

Timesformer Bert Video Captioning

基于Timesformer和BERT架构的视频字幕生成模型，能够为视频内容生成描述性字幕。

视频生成文本

EnCodec是由Meta AI开发的实时高保真神经音频编解码器，支持多种带宽配置和流式处理。

EnCodec是由Meta AI开发的高保真实时神经音频编解码器，采用端到端训练方式，支持多种带宽设置。

基于Donut架构微调的发票信息提取模型，免OCR实现文档理解

图像生成文本

Detr Resnet 50 Finetuned OCR

基于facebook/detr-resnet-50微调的OCR模型，用于目标检测任务

Deformable Detr Box Supervised

Deformable DETR是基于Transformer架构的目标检测模型，在LVIS数据集上训练，支持1203个类别的物体检测。

Deformable Detr Detic

使用可变形检测变换器架构，在包含1203个类别的LVIS数据集上训练的目标检测模型

Imclasif Genres V001

这是一个基于HuggingPics生成的图像分类模型，主要用于对特定类型（genres）的图像进行分类。

Gender Classification

一个基于HuggingPics生成的图像分类模型，用于识别图像中的性别（男性或女性）。

Yolos Small Balloon

YOLOS是一种使用视觉Transformer（ViT）架构的目标检测模型，通过DETR损失训练，在COCO和Matterport气球数据集上微调。

Re2g Qry Encoder Fever

Re2G是一个结合神经初始检索和重排序的生成模型，用于知识密集型任务。该问题编码器是Re2G系统的组成部分，用于将问题编码为向量以进行检索。

Re2g Qry Encoder Nq

Re2G是一个结合神经检索、重排序和生成的端到端系统，用于知识密集型任务。该模型是其NQ（Natural Questions）问题编码器组件。

Cifar 10 Vgg Pretrained

基于PyTorch实现的图像分类模型，能够识别多种常见物体类别

Kss Tts Train Jets Raw Phn Null G2pk Train.total Count.ave

这是一个基于ESPnet2框架训练的韩语文本转语音(TTS)模型，使用KSS数据集训练，采用JETS架构。

语音合成韩语

Wav2vec2 Base Timit Demo Colab0

该模型是基于facebook/wav2vec2-base微调的语音识别模型，在TIMIT数据集上取得了0.5635的词错误率。

Wav2vec2 Base Timit Demo Colab

基于facebook/wav2vec2-base模型在TIMIT数据集上微调的语音识别模型，用于演示目的

Gunnarthor Talromur A Fastspeech2

基于ESPnet框架和talromur数据集训练的FastSpeech2文本转语音模型，支持冰岛语语音合成。

语音合成英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24