持续预训练优化

# 持续预训练优化

Llama 3.3 Swallow 70B Instruct V0.4

Llama 3.3 Swallow是基于Meta Llama 3.3模型进行持续预训练的大型语言模型(70B)，增强了日语能力同时保留原有英语能力。

大型语言模型

Transformers 支持多种语言

Gemma 2 Llama Swallow 9b It V0.1

Gemma-2-Llama-Swallow系列模型是在Gemma-2基础上进行持续预训练构建的多语言大模型，特别增强了日语能力。

大型语言模型

Transformers 支持多种语言

Llama 3.1 8B UltraLong 4M Instruct

专为处理超长文本序列（最高支持100万、200万和400万标记）设计的大语言模型，在标准基准测试中保持卓越性能

大型语言模型

Transformers 英语

Llama 3.1 Minitron 4B Width Base

Llama-3.1-Minitron-4B-Width-Base是一个基础文本到文本模型，通过对Llama-3.1-8B进行剪枝获得，适用于多种自然语言生成任务。

大型语言模型

Transformers 英语

Finance Llama3 8B

基于Llama3-8B开发的金融领域模型，通过指令预训练框架增强领域适应能力，在金融任务上达到甚至超越Llama3-70B的性能。

大型语言模型

Transformers 英语

instruction-pretrain

Layerskip Llama2 7B

基于Llama2 7B改进的模型，支持层级跳跃和自推测解码，提升推理效率

大型语言模型

Transformers 英语

Quietstar 8 Ahead

基于Mistral-7b模型，采用Quiet-STaR方法进行持续预训练，在生成每个输出词元前会先生成8个思维词元，提升推理能力。

大型语言模型

Camembert Bio Base

CamemBERT-bio是一款专为法语生物医学领域优化的语言模型，基于camembert-base进行持续预训练，在生物医学命名实体识别任务上表现优异。

大型语言模型

Transformers 法语

SurgicBERTa是基于RoBERTa-base架构开发的语言模型，专门针对外科教材与学术论文进行优化。

大型语言模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24