Llama-3-8B-Instruct-64k开源大语言模型 - 长文本处理支持超长上下文对话

首页

Llama 3 8B Instruct 64k

由 MaziyarPanahi 开发

基于 winglian/Llama-3-8b-64k-PoSE 开发的 8B 参数大语言模型，采用 PoSE 技术扩展上下文长度至 64k，并经过 DPO 微调优化

大型语言模型

Transformers

英语#64k长文本处理 #指令微调优化 #DPO强化学习

下载量 91

发布时间 : 4/25/2024

模型简介

这是一个基于 Meta Llama-3 架构的 8B 参数大语言模型，通过 PoSE 技术将上下文长度扩展至 64k，并经过 DPO 微调优化，适用于长文本生成和对话任务。

模型特点

64k 长上下文支持

采用 PoSE 技术将上下文长度从 8k 扩展至 64k，适合处理长文档和复杂对话

DPO 微调优化

使用 Intel/orca_dpo_pairs 数据集进行 DPO 微调，提升模型响应质量

高效推理

支持 flash_attention_2 和 bfloat16 推理，提高推理效率

模型能力

长文本生成

对话系统

指令跟随

使用案例

对话系统

角色扮演聊天机器人

可用于构建具有特定角色特征的聊天机器人，如示例中的海盗聊天机器人

能够生成符合角色设定的连贯对话

长文档处理

长文档摘要

利用 64k 上下文长度优势处理长文档并生成摘要

🚀 MaziyarPanahi/Llama-3-8B-Instruct-64k

本模型基于@winglian的优秀工作，特别是他的最新模型winglian/Llama-3-8b-64k-PoSE构建。该模型利用PoSE技术将Llama的上下文长度从8k扩展到64k，@rope_theta设置为500000.0。通过在RedPajama V1数据集中300M个6k - 8k token的数据上继续预训练，进一步将rope_theta设置为2M，有望将上下文长度进一步扩展到64k以上。此外，还在RedPajama v1数据集的一个子集上进行训练，训练了秩为256的稳定LoRA。WandB

✨ 主要特性

上下文长度扩展：使用PoSE技术将Llama上下文长度从8k扩展到64k，并有可能进一步扩展。
持续预训练：在RedPajama V1数据集上进行持续预训练。
LoRA训练：训练了秩为256的稳定LoRA。

📦 安装指南

暂未提及具体安装步骤，可参考Hugging Face的transformers库的通用安装方法。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
from transformers import pipeline
import torch

model_id = "MaziyarPanahi/Llama-3-8B-Instruct-64k"

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True,
    # attn_implementation="flash_attention_2"
)

tokenizer = AutoTokenizer.from_pretrained(
    model_id,
    trust_remote_code=True
)

streamer = TextStreamer(tokenizer)

pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    model_kwargs={"torch_dtype": torch.bfloat16},
    streamer=streamer
)

# Then you can use the pipeline to generate text.

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompt = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|im_end|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=8192,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
)
print(outputs[0]["generated_text"][len(prompt):])

🔧 技术细节

PoSE技术：用于扩展Llama的上下文长度。
持续预训练：在RedPajama V1数据集的300M个6k - 8k token的数据上进行。
LoRA训练：训练了秩为256的稳定LoRA。

📄 许可证

本模型使用Llama3许可证，详情请见LICENSE。

信息表格

属性	详情
模型类型	Llama-3-8B-Instruct-64k
训练数据	Intel/orca_dpo_pairs，RedPajama v1数据集的子集（6k - 8k上下文文本）
量化模型	MaziyarPanahi/Llama-3-8B-Instruct-64k-GGUF，上下文长度为64000