大规模语料

# 大规模语料

Randeng Pegasus 523M Summary Chinese V1

专长于处理文本摘要任务的中文PEGASUS-large模型，基于多个中文摘要数据集微调

Transformers 中文

Ernie 3.0 Mini Zh

ERNIE 3.0是一个面向中文语言理解与生成的大规模知识增强预训练模型，mini版本是其轻量级实现。

大型语言模型

Transformers 中文

XLMR-MaCoCu-tr 是基于土耳其语文本大规模预训练的语言模型，是MaCoCu项目的一部分，使用35GB土耳其语文本训练。

大型语言模型其他

基于大规模科研论文集合预训练的BERT-large变体，参数量3.4亿，专注于科学文献理解

大型语言模型

Transformers 英语

Viwav2vec2 Base 3k

该模型是基于3千小时越南语语音数据预训练的Wav2Vec2基础模型，适用于越南语语音识别任务，需在下游任务上微调后使用。

Transformers 其他

Tf Xlm Roberta Base

XLM-RoBERTa是一种跨语言句子编码器的扩展版本，基于100种语言的2.5T数据训练，在多项跨语言基准测试中表现优异。

大型语言模型

Bert Large Arabertv2

AraBERT是基于谷歌BERT架构的阿拉伯语预训练语言模型，专为阿拉伯语自然语言理解任务设计。

大型语言模型阿拉伯语

Indobert Large P2

IndoBERT是基于BERT模型针对印尼语开发的尖端语言模型，采用掩码语言建模（MLM）和下一句预测（NSP）目标进行训练。

大型语言模型其他

Indobert Base P2

IndoBERT是基于BERT模型的印尼语最先进的语言模型，通过掩码语言建模和下一句预测目标进行训练。

大型语言模型其他

Electra Base Gc4 64k 500000 Cased Generator

基于德语海量清洁版Common Crawl语料库（GC4）训练的超大规模德语语言模型，总规模约844GB，可能存在偏见。

大型语言模型

Transformers 德语

mGPT是基于mC4数据集预训练的多语言生成模型，支持101种语言，采用类似GPT-2的Transformer架构。

大型语言模型

Chinese Mobile Bert

该模型基于2.5亿中文语料库，采用MobileBERT架构进行预训练，训练周期为15天，在单张A100显卡上完成100万步迭代。

大型语言模型

Xlm Roberta Large

XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型，采用掩码语言建模目标进行训练。

大型语言模型支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24