维基百科预训练

# 维基百科预训练

Gemma 2 9b Turkish Lora Continue Pre Trained

基于google/gemma-2-9b基础模型，使用土耳其语维基百科数据继续预训练的LoRA适配模型，提升土耳其文本处理能力

大型语言模型其他

Gemma 2b It Tamil V0.1 Alpha

这是谷歌Gemma 2B模型的泰米尔语指令微调版本，支持英语和泰米尔语双语文本生成。

大型语言模型

Transformers 支持多种语言

NusaBERT基础版是基于BERT架构的多语言编码器语言模型，支持13种印度尼西亚地区语言，在多个开源语料库上进行了预训练。

大型语言模型

Transformers 其他

Multilingual Albert Base Cased 64k

基于掩码语言建模（MLM）目标预训练的多语言ALBERT模型，支持64k词表大小，区分大小写

大型语言模型

Transformers 支持多种语言

Bart Large Japanese

基于日语维基百科预训练的日本语BART大模型，适用于文本生成和自然语言处理任务。

大型语言模型

Transformers 日语

Bart Base Japanese

这是一个基于日语维基百科预训练的日语BART基础模型，适用于自然语言处理任务。

大型语言模型

Transformers 日语

Deberta V2 Base Japanese

基于日语维基百科、CC-100和OSCAR语料预训练的日语DeBERTa V2基础模型，适用于掩码语言建模和下游任务微调。

大型语言模型

Transformers 日语

Roberta Base Japanese With Auto Jumanpp

基于RoBERTa架构的日语预训练模型，支持自动Juman++分词，适用于日语自然语言处理任务。

大型语言模型

Transformers 日语

Deberta Base Japanese Wikipedia

基于日语维基百科和青空文库文本预训练的DeBERTa(V2)模型，适用于日语文本处理任务

大型语言模型

Transformers 日语

Bert Base Japanese Wikipedia Ud Head

这是一个专为日语依存句法分析设计的BERT模型，用于检测长单元词的头词，采用问答形式实现。

Transformers 日语

Albert Base Japanese V1 With Japanese Tokenizer

这是一个经过日语预训练的ALBERT模型，使用了BertJapaneseTokenizer作为分词器，处理日语文本更加便捷。

大型语言模型

Transformers 日语

Mluke Large Lite

mLUKE是LUKE的多语言扩展版本，支持24种语言的命名实体识别、关系分类和问答系统任务

大型语言模型

Transformers 支持多种语言

Mluke Base Lite

mLUKE是LUKE的多语言扩展版本，支持24种语言的文本处理任务

大型语言模型

Transformers 支持多种语言

Sbert Base Cased Pl

SHerbert是基于波兰语HerBERT模型的SentenceBERT实现，用于生成具有语义意义的句子嵌入，支持通过余弦相似度比较句子相似度。

文本嵌入其他

Bert Base Japanese Char Whole Word Masking

基于日语文本预训练的BERT模型，采用字符级分词和全词掩码技术，适用于日语自然语言处理任务。

大型语言模型日语

Tiny Roberta Indonesia

这是一个基于印尼语的小型RoBERTa模型，专门针对印尼语文本处理任务进行了优化。

大型语言模型

Transformers 其他

Simcse Model Roberta Base Thai

这是一个基于XLM-R的sentence-transformers模型，专门针对泰语进行优化，能够将句子和段落映射到768维的密集向量空间。

基于BERT-Base架构的泰语专用预训练模型，针对泰语分词特点优化，提供优于多语言BERT的性能表现

大型语言模型其他

Bert Base Multilingual Cased Finetuned Polish Squad1

基于多语言BERT模型微调的波兰语问答系统，在波兰语SQuAD1.1数据集上表现优异

问答系统其他

mLUKE是LUKE的多语言扩展版本，支持24种语言的命名实体识别、关系分类和问答系统任务。

大型语言模型

Transformers 支持多种语言

Bert Base Japanese Whole Word Masking

基于日语文本预训练的BERT模型，采用IPA词典分词和全词掩码技术

大型语言模型日语

French Albert Base Cased

基于法语维基百科预训练的ALBERT基础模型，支持大小写识别，适用于法语NLP任务。

大型语言模型

Transformers 法语

Bert Italian Finedtuned Squadv1 It Alfa

意大利语BERT基础版在意大利语SQuAD上微调，用于问答下游任务

问答系统其他

Electra Small Paper Japanese Generator

基于日语维基百科预训练的ELECTRA小型模型，适用于日语文本生成和填充任务

大型语言模型

Transformers 日语

基于日语维基百科数据集训练的BERT基础模型，适用于日语文本的掩码填充任务

大型语言模型

Transformers 日语

Roberta Swedish

这是一个基于RoBERTa架构的瑞典语预训练模型，适用于多种自然语言处理任务。

大型语言模型

Bert Small Japanese

基于日语维基百科预训练的BERT小型模型，专为金融文本挖掘优化

大型语言模型

Transformers 日语

Bert Large Japanese

基于日语维基百科预训练的BERT大型模型，采用Unidic词典分词和全词掩码策略

大型语言模型日语

Bert Base Japanese Basic Char V2

这是一个基于字符级分词和全词掩码技术的日语BERT预训练模型，无需依赖`fugashi`或`unidic_lite`工具包。

大型语言模型

Transformers 日语

hiroshi-matsuda-rit

Bertinho Gl Base Cased

一个为加利西亚语预训练的BERT模型（12层，区分大小写）。基于维基百科数据训练

大型语言模型其他

Bert Base Japanese Char V2

针对日语文本预训练的BERT模型，采用字符级分词和全词掩码机制，基于日语维基百科2020年8月31日版本训练

大型语言模型日语

T5 Base Japanese

基于日语语料库预训练的T5（文本到文本转换Transformer）模型，适用于多种文本生成任务。

大型语言模型日语

Bert Base 5lang Cased

bert-base-multilingual-cased的精简版本，仅支持5种语言（英语、法语、西班牙语、德语和中文），比原版小30%，但对这些语言的表示与原版相同。

大型语言模型支持多种语言

Bert Base Japanese V2

基于日语维基百科预训练的BERT模型，采用Unidic词典进行词汇级分词和整词掩码训练

大型语言模型日语

Bert Large Japanese Char

基于日语维基百科预训练的BERT模型，采用字符级分词与全词掩码策略，适用于日语自然语言处理任务

大型语言模型日语

Bert Base Japanese Char

基于日语文本预训练的BERT模型，采用字符级分词处理，适用于日语自然语言处理任务。

大型语言模型日语

Roberta Base Indonesian 522M

基于RoBERTa-base架构的印尼语预训练模型，使用印尼语维基百科数据训练，不区分大小写。

大型语言模型其他

Roberta Hindi Guj San

基于印地语、梵语和古吉拉特语维基百科文章训练的多语言RoBERTa类模型，支持三种印度语系语言处理。

大型语言模型其他

mLUKE是LUKE的多语言扩展版本，支持24种语言的命名实体识别、关系分类和问答系统任务。

大型语言模型

Transformers 支持多种语言

Bert Base Japanese

基于日语维基百科文本预训练的BERT模型，使用IPA词典进行词语级分词处理，适用于日语自然语言处理任务。

大型语言模型日语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24