DiffLlama-1B开源大语言模型 - 基于差分架构实现高效智能问答交流

首页

Diffllama 1B

由 kajuma 开发

DiffLlama-1B 是一个从零开始预训练约1000亿标记、参数规模约10亿的大语言模型，创新性地采用了'差分Transformer'架构理念。

大型语言模型

Safetensors

日语开源协议:Apache-2.0 #差分注意力机制 #日语文本生成 #高效训练优化

下载量 202

发布时间 : 3/29/2025

模型简介

该模型通过将差分注意力机制融入Llama模型框架，实现了对关键上下文信息的精准聚焦与噪声抑制，适用于日语文本生成任务。

模型特点

差分注意力机制

创新性地将差分注意力机制融入Llama模型框架，实现对关键上下文信息的精准聚焦与噪声抑制

高效训练技术

采用分块训练方法和μ子优化器，训练效率提升2倍（等效2000亿标记训练）

大规模预训练

基于约1000亿标记的高质量日语教育数据进行单轮预训练

模型能力

日语文本生成

上下文理解

长文本处理

使用案例

教育领域

日语学习辅助

生成日语学习材料和练习题

可提供符合教育场景的高质量日语文本

内容创作

日语内容生成

自动生成日语文章、故事等创意内容

🚀 DiffLlama-1B

DiffLlama-1B是一个约10亿参数的大规模语言模型，它从0开始进行了约1000亿token的预训练。该模型引入了针对传统Transformer架构改进而提出的“差分Transformer（Differential Transformer）”概念。特别是通过将差分注意力（Differential Attention）机制应用于Llama模型，它能够将注意力集中在相关性高的上下文上，从而减少噪声干扰。

✨ 主要特性

架构：将差分注意力（Differential Attention）机制集成到Llama模型中。
参数数量：10亿（1B）参数。
Patch级训练：使用了降低训练成本的技术Patch级训练。
Muon优化器：使用比AdamW收敛更快的优化器，将训练效率提高了一倍（即实际上相当于进行了2000亿token的训练）。具体实现请参考此处。

📦 安装指南

文档未提及安装步骤，跳过该章节。

💻 使用示例

基础用法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, set_seed

model = AutoModelForCausalLM.from_pretrained("kajuma/DiffLlama-1B", torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("kajuma/DiffLlama-1B")
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
set_seed(123)

text = generator(
    "おはようございます、今日の天気は",
    max_length=30,
    do_sample=True,
    pad_token_id=tokenizer.pad_token_id,
    num_return_sequences=3,
)
for t in text:
    print(t)