大规模预训练

# 大规模预训练

Siglip So400m Patch14 378 From Llava Onevision Qwen2 7b Si Hf

这是一个自动生成的Hugging Face Transformers模型卡片，具体模型信息待补充。

大型语言模型

VLM2Vec-V2 是一个用于大规模多模态嵌入任务的模型，通过训练视觉语言模型，为视频、图像和视觉文档等多模态数据提供更强大的嵌入能力。

多模态融合

Transformers 英语

Qwen3-8B-Base 是通义大模型系列的最新一代产品，具有82亿参数，支持119种语言，适用于多种自然语言处理任务。

大型语言模型

Bart Large Paraphrase Generator En De V2

基于BART架构的大规模英德转述生成模型

Bart Large Teaser De V2

基于BART架构的大型德语文本处理模型，适用于多种自然语言处理任务

大型语言模型

Gemma 2 Llama Swallow 2b It V0.1

Gemma-2-Llama-Swallow系列是通过对gemma-2模型进行持续预训练构建的，显著增强了日文语言处理能力，同时保留原有英文能力。

大型语言模型

Transformers 支持多种语言

LHM是一个前馈式模型，可在数秒内从单张图像重建可动画的3D人体。

Safetensors 英语

LHM是一个前馈式模型，可在数秒内从单张图像重建可动画的3D人体。

基于未知数据集微调的语言模型，训练过程中使用了Transformers库

大型语言模型

LHM是一个前馈模型，可在数秒内从单张图像重建可动画的3D人体。通过在大规模视频数据集上使用图像重建损失进行训练，我们的模型对多样化的现实场景展现出强大的泛化能力。

Izanami Wav2vec2 Large

基于大规模日本电视广播音频数据预训练的日语wav2vec2.0 Large模型

语音识别日语

Kushinada Hubert Large

基于62,215小时日本电视广播音频数据预训练的日语HuBERT Large模型，用于语音特征提取

语音识别日语

Kushinada Hubert Base

基于62,215小时日本电视广播音频数据预训练的日语语音特征提取模型

语音识别日语

AMD基于Instinct MI300X GPU训练的30亿参数全开放语言模型家族，性能超越同规模开放模型

大型语言模型

Vit So400m Patch16 Siglip 512.v2 Webli

基于SigLIP 2的视觉Transformer模型，专为图像特征提取设计，适用于多语言视觉-语言任务。

文本生成图像

Siglip2 Giant Opt Patch16 384

SigLIP 2 是基于 SigLIP 预训练目标的改进模型，整合了多项技术以提升语义理解、定位和密集特征提取能力。

文本生成图像

Siglip2 Large Patch16 512

SigLIP 2 是基于 SigLIP 的改进模型，整合了多项技术以提升语义理解、定位和密集特征提取能力。

文本生成图像

OWLS是一套Whisper风格的模型，旨在帮助研究人员理解语音模型的扩展特性，支持多语言语音识别和翻译。

语音识别其他

LLaVE-7B是基于LLaVA-OneVision-7B模型的70亿参数多模态嵌入模型，具备文本、图像、多图像和视频的嵌入表示能力。

多模态融合

Transformers 英语

Wav2vec2 Large Xls R 300m Ru

该模型是基于facebook/wav2vec2-xls-r-300m在common_voice_17_0数据集上微调的俄语自动语音识别(ASR)模型，词错误率(WER)为0.195。

Mt0 Xxl Mt Q4 K M GGUF

该模型是从bigscience/mt0-xxl-mt通过llama.cpp转换为GGUF格式的多语言文本生成模型，支持多种语言任务。

大型语言模型支持多种语言

C-RADIOv2是NVIDIA开发的视觉特征提取模型，提供多种规格版本，适用于图像理解和密集处理任务。

CLIP ViT H 14 Laion2b S32b B79k

这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型，擅长零样本图像分类和跨模态检索任务。

文本生成图像

Videomaev2 Giant

VideoMAEv2-giant是一个基于自监督学习的超大规模视频分类模型，采用双掩码策略进行预训练。

Videomaev2 Huge

VideoMAEv2-Huge是一个基于自监督学习的视频特征提取模型，在UnlabeldHybrid-1M数据集上进行了1200轮预训练。

Videomaev2 Base

VideoMAEv2-Base是基于自监督学习的视频特征提取模型，采用双重掩码机制在UnlabeldHybrid-1M数据集上预训练。

LongVA-7B-TPO是基于LongVA-7B通过时序偏好优化而来的视频-文本模型，在长视频理解任务中表现优异。

视频生成文本

CLIP ViT B 32 Laion2b S34b B79k

基于OpenCLIP框架在LAION-2B英语数据集上训练的视觉-语言模型，支持零样本图像分类和跨模态检索

文本生成图像

Reloc3r是一个简洁高效的相机姿态估计框架，结合了预训练的双视角相对相机姿态回归网络与多视角运动平均模块。

Aimv2 1b Patch14 224.apple Pt

AIM-v2是一个基于timm库的图像编码器模型，具有10亿参数规模，适用于图像特征提取任务。

Sam2 Hiera Large.fb R1024 2pt1

基于HieraDet图像编码器的SAM2模型，专注于高效图像特征提取

Eva Giant Patch14 Clip 224.laion400m

EVA CLIP模型是基于OpenCLIP和timm框架的视觉语言模型，支持零样本图像分类任务。

文本生成图像

Eva02 Large Patch14 Clip 336.merged2b

EVA02 CLIP 是一个基于 CLIP 架构的大规模视觉-语言模型，支持零样本图像分类等任务。

文本生成图像

Eva02 Large Patch14 Clip 224.merged2b

EVA CLIP模型是基于OpenCLIP和timm模型权重的视觉语言模型，支持零样本图像分类等任务。

Eva02 Enormous Patch14 Clip 224.laion2b Plus

EVA-CLIP是基于CLIP架构的大规模视觉-语言模型，支持零样本图像分类等任务。

文本生成图像

Eva02 Enormous Patch14 Clip 224.laion2b

EVA-CLIP是一个基于CLIP架构的视觉-语言模型，支持零样本图像分类任务。

文本生成图像

Vit Large Patch14 Clip 224.dfn2b

基于CLIP架构的视觉变换器模型，专注于图像特征提取，由苹果公司发布。

Vit Huge Patch14 Clip 224.dfn5b

基于CLIP架构的ViT-Huge图像编码器，由苹果公司发布的DFN5B-CLIP模型，适用于视觉特征提取任务。

Vit So400m Patch14 Siglip Gap 384.webli

基于SigLIP的视觉Transformer模型，采用全局平均池化处理图像特征

Vit So400m Patch14 Siglip 224.webli

基于SigLIP的视觉Transformer模型，仅包含图像编码器部分，采用原始注意力池化机制

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24