高效预训练

# 高效预训练

Open-Qwen2VL是一个多模态模型，能够接收图像和文本作为输入并生成文本输出。

图像生成文本英语

Olmo2 11B SuperBPE T180k

110亿参数大语言模型，采用创新的SuperBPE分词器训练，支持超词单元识别和子词分词能力。

大型语言模型

Transformers 英语

GenMedClip 是一个基于 open_clip 库的零样本图像分类模型，专注于医学图像分析。

Gte Multilingual Mlm Base

mGTE系列多语言文本编码器，支持75种语言，最大上下文长度8192，基于BERT+RoPE+GLU架构，在GLUE和XTREME-R基准上表现优异

大型语言模型

Llama3 German 8B 32k

基于Meta Llama3-8B优化的德语大语言模型，通过650亿德语语料持续预训练，专为德语优化并支持32k长上下文

大型语言模型

Transformers 德语

Rho Math 1b V0.1

Rho-1是一个专注于数学领域的语言模型，通过选择性语言建模(SLM)方法进行预训练，显著提升了数学问题解决的准确率。

大型语言模型

Transformers 英语

Tinyllama V1.1 Math Code

TinyLlama是一个11亿参数的紧凑型语言模型，采用与Llama 2相同的架构和分词器，适用于计算和内存资源有限的应用场景。

大型语言模型

Transformers 英语

TinyLlama是一个11亿参数的小型语言模型，采用与Llama 2相同的架构和分词器，适用于资源受限的应用场景。

大型语言模型

Transformers 英语

Ltg Bert Babylm

基于100MW BabyLM挑战赛数据集训练的BERT变体，优化了在中等规模语料库上的表现

大型语言模型

Transformers 英语

Tinyllama 1.1B Intermediate Step 1431k 3T

TinyLlama是一个1.1B参数的Llama模型，预训练使用了3万亿标记，旨在提供紧凑高效的文本生成能力。

大型语言模型

Transformers 英语

Tinyllama 1.1B Intermediate Step 1195k Token 2.5T

TinyLlama是一个1.1B参数的小型Llama模型，在3万亿token上预训练，设计用于资源有限的环境。

大型语言模型

Transformers 英语

M2 Bert 80M 2k Retrieval

这是一个80M参数的M2-BERT预训练检查点，序列长度为2048，并已针对长上下文检索任务进行微调。

Transformers 英语

togethercomputer

Tinyllama 1.1B Intermediate Step 715k 1.5T

TinyLlama是一个11亿参数的Llama模型，在3万亿标记上预训练，适用于计算和内存有限的场景。

大型语言模型

Transformers 英语

Retromae Small Cs

基于RetroMAE目标在捷克语网络语料库上预训练的BERT-small模型，由Seznam.cz开发，适用于多种自然语言处理任务。

Transformers 其他

Sheared LLaMA 2.7B

Sheared-LLaMA-2.7B是基于Llama-2-7b通过剪枝和继续预训练得到的轻量级语言模型，仅消耗50B tokens预算。

大型语言模型

Sheared LLaMA 1.3B

Sheared-LLaMA-1.3B是基于LLaMA-2-7B通过结构化剪枝和持续预训练得到的高效语言模型

大型语言模型

Tinyllama 1.1B Python V0.1

TinyLlama是一个11亿参数的轻量级Llama模型，在3万亿标记上预训练，适用于计算资源有限的应用场景。

大型语言模型

Transformers 英语

Tinyllama 1.1B Step 50K 105b

TinyLlama是一个1.1B参数的Llama模型，计划在3万亿token上进行预训练，优化后可在16块A100-40G GPU上90天内完成训练。

大型语言模型

Transformers 英语

CodeT5+ 16B是一个开源的代码大语言模型家族，采用编码器-解码器架构，支持多种模式，适用于广泛的代码理解与生成任务。

大型语言模型

Videomae Small Finetuned Kinetics

VideoMAE是视频领域的掩码自编码器模型，通过自监督预训练并在Kinetics-400数据集上进行监督微调，适用于视频分类任务。

Videomae Huge Finetuned Kinetics

VideoMAE是基于掩码自编码器(MAE)的视频预训练模型，通过自监督学习在Kinetics-400数据集上微调，适用于视频分类任务。

VideoMAE是基于掩码自编码器(MAE)的视频自监督预训练模型，通过预测被掩码视频块的像素值学习视频内部表示。

Efficient Mlm M0.15

该模型研究了在掩码语言建模中遮蔽15%内容的有效性，采用了前置层归一化方法。

大型语言模型

Distilbert Mlm 750k

DistilBERT 是 BERT 的轻量级蒸馏版本，保留了大部分性能但参数更少。

大型语言模型

vocab-transformers

Chinese Electra Large Generator

中文ELECTRA是由哈工大-讯飞联合实验室基于谷歌ELECTRA模型开发的中文预训练模型，具有参数量小但性能优越的特点。

大型语言模型

Transformers 中文

Distilcamembert Base

DistilCamemBERT是法语CamemBERT模型的蒸馏版本，通过知识蒸馏技术显著降低模型复杂度，同时保持性能。

大型语言模型

Transformers 法语

Rugpt3small Based On Gpt2

由SberDevices团队开发的俄语预训练Transformer语言模型，基于GPT2架构，支持1024序列长度，训练数据达800亿token。

大型语言模型其他

Roberta Base Wechsel Swahili

使用WECHSEL方法训练的RoBERTa基础模型，专门针对斯瓦希里语进行优化，实现高效跨语言迁移。

大型语言模型

Transformers 其他

Bertin Roberta Base Spanish

BERTIN是一系列基于BERT的西班牙语模型，当前模型是在西班牙语mC4部分上使用Flax从头训练的RoBERTa-base模型。

大型语言模型西班牙语

Arabictransformer Base

基于漏斗Transformer和ELECTRA目标的高效阿拉伯语模型，计算成本低且性能优越

大型语言模型

Chinese Mobile Bert

该模型基于2.5亿中文语料库，采用MobileBERT架构进行预训练，训练周期为15天，在单张A100显卡上完成100万步迭代。

大型语言模型

Bert Base Uncased Sparse 90 Unstructured Pruneofa

这是一个稀疏预训练的BERT-Base模型，通过一次性修剪方法实现90%权重稀疏化，适用于多种语言任务微调。

大型语言模型

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24