维基百科训练

# 维基百科训练

Yugogpt Florida Q8 0 GGUF

YugoGPT-Florida 是一个基于塞尔维亚语的大语言模型，在多个评测基准中表现优异。

大型语言模型其他

一个仅含1600万参数的小型语言模型，主要用于调试和测试，支持英文和日文。

大型语言模型

Transformers 支持多种语言

Gpt2 Turkish 128 Token GGUF

基于GPT-2架构的土耳其语文本生成模型，支持128词元长度的文本生成。

大型语言模型其他

Simcse Model XLMR

基于XLM-R的sentence-transformers模型，使用SimCSE方法训练，可将句子和段落映射到768维密集向量空间，适用于聚类或语义搜索等任务。

Simcse Model Phayathaibert

这是一个基于sentence-transformers的模型，能将句子和段落映射到768维的密集向量空间，适用于聚类或语义搜索等任务。

Simcse Model M Bert Thai Cased

基于mBERT的SimCSE模型，专门针对泰语进行训练，用于生成句子和段落的768维向量表示

Minilm L6 H384 Italian Cross Encoder

基于MiniLMv2架构的意大利语文本排序模型，通过修改嵌入层针对意大利语优化

文本嵌入其他

Gpt2 Turkish 900m

基于GPT-2架构的土耳其语大语言模型，专为土耳其语文本生成任务设计

大型语言模型

Transformers 其他

这是一个类似LLaMA的小型语言模型，包含6800万参数，主要用于SpecInfer论文中的推测推理研究。

大型语言模型

Transformers 英语

这是一个仅包含1.6亿参数的类LLaMA模型，训练数据来源于维基百科及部分C4-en和C4-realnewslike数据集。

大型语言模型

Transformers 英语

Abstract Sim Query

一个将抽象句子描述映射到符合描述的句子的模型，基于维基百科训练，采用双编码器架构。

Transformers 英语

Abstract Sim Sentence

一个将抽象句子描述映射到符合描述的句子的模型，基于维基百科训练，采用双编码器架构。

Transformers 英语

Sbert Large Cased Pl

SHerbert large是基于波兰语HerBERT改进的SentenceBERT模型，用于生成具有语义意义的句子嵌入，并通过余弦相似度进行比较。

文本嵌入其他

Rust Cl Tohoku Bert Large Japanese

这是将东北大学的BERT large Japanese模型转换为可在Rust中使用的格式的版本

大型语言模型日语

Multilingual Bert Gn Base Cased

基于多语言BERT基础模型针对瓜拉尼语进行微调的语言模型，支持104种语言及瓜拉尼语

大型语言模型

Transformers 其他

Indo Roberta Small

印尼小型RoBERTa是基于RoBERTa模型的掩码语言模型，专门针对印尼语进行训练，适用于文本填充和特征提取任务。

大型语言模型其他

基于ELECTRA框架训练的泰米尔语预训练模型，第二版采用TPU训练并扩大语料库规模

大型语言模型

Transformers 其他

这是一个基于Flax CLM流程训练的瑞典语GPT2风格模型，训练数据来自wiki40b数据集的瑞典语部分。

大型语言模型其他

Albert Base Japanese V1

这是一个预训练的日语ALBERT模型，主要用于填充掩码任务，支持日语文本处理。

大型语言模型

Transformers 日语

Simcse Model M Bert Thai Cased

基于mBERT的泰语句子嵌入模型，使用SimCSE方法在泰语维基百科数据上训练，可将文本映射为768维向量

Simcse Model Distil M Bert

基于m-Distil-BERT的句子转换器模型，采用SimCSE方法训练，可将文本映射为768维向量，适用于语义搜索和聚类任务

基于Flax CLM流水线训练的丹麦语GPT2风格模型，使用wiki40b数据集的丹麦语部分训练而成。

大型语言模型其他

Bertinho Gl Small Cased

一个为加利西亚语预训练的BERT模型（6层，区分大小写）。基于维基百科训练。

大型语言模型其他

基于BERT架构的韩语预训练语言模型，适用于韩语文本处理任务。

大型语言模型

Transformers 韩语

Bert Base Mongolian Cased

这是一个预训练的蒙古语BERT模型，基于蒙古语维基百科和新闻数据集训练，支持蒙古语文本处理任务。

大型语言模型其他

Bert Base Multilingual Cased Finetuned Dutch Squad2

基于谷歌多语言BERT模型微调的荷兰语问答模型，在翻译版SQuAD2.0数据集上训练

问答系统其他

Nordic Roberta Wiki

基于瑞典语、丹麦语和挪威语维基百科训练的北欧RoBERTa模型，适用于填充掩码任务。

大型语言模型其他

Distilbert Base Es Cased

这是distilbert-base-multilingual-cased多语言版的定制化精简版本，专门针对西班牙语处理优化

大型语言模型

Transformers 西班牙语

Distilbert Base En Bg Cased

这是distilbert-base-multilingual-cased的小型版本，专门针对英语和保加利亚语优化，保持了原始模型的准确性。

大型语言模型

Transformers 其他

Bert Base Tr Cased

这是bert-base-multilingual-cased的定制化精简版本，专门针对土耳其语优化，能完全复现原始模型的表征输出，确保原始精度无损。

大型语言模型其他

Distilbert Base Pl Cased

这是distilbert-base-multilingual-cased的定制化精简版本，专门针对波兰语优化，保留了原始模型的准确率。

大型语言模型

Transformers 其他

Distilbert Base Ur Cased

这是distilbert-base-multilingual-cased的轻量版本，专门针对乌尔都语进行了优化，保持了原始模型的准确性。

大型语言模型

Transformers 其他

Bert Base Uk Cased

这是bert-base-multilingual-cased的乌克兰语定制版本，支持乌克兰语文本处理并保持原始模型的准确度。

大型语言模型其他

Distilbert Base En Fr Da Ja Vi Cased

这是distilbert-base-multilingual-cased的轻量版本，支持英语、法语、丹麦语、日语和越南语处理，保持原始模型准确度。

大型语言模型

Transformers 其他

Distilbert Base Th Cased

基于多语言蒸馏式BERT基础模型定制的泰语版本，保留了原始模型的准确度和特征表示能力。

大型语言模型

Transformers 其他

Bert Base Th Cased

这是bert-base-multilingual-cased的定制化精简版本，专为泰语处理优化，保持原始模型的准确率。

大型语言模型其他

Bert Base Lt Cased

这是bert-base-multilingual-cased的定制化精简版本，专门针对立陶宛语处理优化，保持原始模型的表征输出和准确率。

大型语言模型其他

Bert Base En Uk Cased

这是bert-base-multilingual-cased的定制化精简版本，专门支持英语和乌克兰语处理，保持原始模型的表征输出和准确度。

大型语言模型其他

Distilbert Base En No Cased

这是distilbert-base-multilingual-cased的轻量版本，专门针对英语和挪威语优化，保持原始准确率的同时减少模型大小。

大型语言模型

Transformers 其他

Distilbert Base Pt Cased

这是distilbert-base-multilingual-cased的小型版本，专门处理葡萄牙语，保持了原始模型的准确性。

大型语言模型

Transformers 其他

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24