L

Llama 3 70B Special Tokens Adjusted

由 astronomer 开发
基于Meta-Llama-3-70B优化的特殊标记调整版本,修复了原始模型中未训练特殊标记导致的微调问题
下载量 33
发布时间 : 4/25/2024
模型介绍
内容详情
替代品

模型简介

本模型是对Meta-Llama-3-70B的优化版本,主要解决了原始模型中部分特殊标记未被训练的问题,使模型更适合下游任务微调。

模型特点

特殊标记优化
修复了原始模型中未训练特殊标记的问题,使用已训练标记的均值填充这些标记的权重
微调稳定性增强
解决了微调过程中可能出现的梯度爆炸或NaN梯度问题
兼容性保留
保持与原始Meta-Llama-3-70B模型完全相同的功能,仅优化特殊标记处理

模型能力

文本生成
指令跟随
下游任务微调

使用案例

自然语言处理
指令微调
作为基础模型进行指令微调
避免因特殊标记问题导致的训练不稳定
添加新标记
在微调过程中添加新标记
新标记能获得合理的初始嵌入值