TinyLlama-1.1B-Chat-v1.0-GGUF开源模型 - 轻量化助力聊天与编程辅助

首页

Tinyllama 1.1B Chat V1.0 GGUF

由 andrijdavid 开发

TinyLlama是一个1.1B参数的轻量级Llama模型，专为聊天和编程辅助任务优化。

大型语言模型英语开源协议:Apache-2.0 #轻量级聊天 #编程助手 #多轮对话

下载量 117

发布时间 : 1/1/2024

模型简介

这是一个基于TinyLlama-1.1B微调的聊天模型，遵循HF's Zephyr的训练配方，适用于对话生成和编程辅助任务。

模型特点

轻量级设计

仅1.1B参数的紧凑设计，适合计算和内存受限的应用场景。

高效训练

使用3万亿令牌预训练，优化后可在90天内使用16个A100-40G GPU完成训练。

聊天优化

基于UltraChat和UltraFeedback数据集微调，专为对话任务优化。

模型能力

文本生成

对话系统

编程辅助

故事创作

使用案例

对话系统

聊天机器人

可作为友好的聊天机器人，支持自定义对话风格。

能生成符合设定风格的连贯回复

编程辅助

代码生成

帮助生成和解释编程代码片段。

能生成可运行的Python代码示例

🚀 TinyLlama-1.1B-Chat-v1.0-GGUF

本项目提供了 TinyLlama-1.1B-Chat-v1.0 模型的 GGUF 格式文件，方便用户在不同的客户端和库中使用该模型进行推理和对话。

🚀 快速开始

下载模型文件

可以通过以下几种方式下载 GGUF 格式的模型文件：

自动下载：LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动下载模型，并提供可用模型列表供用户选择。
text-generation-webui：在 text-generation-webui 的下载模型界面，输入模型仓库地址 andrijdavid/TinyLlama-1.1B-Chat-v1.0-GGUF，并指定具体的文件名，如 TinyLlama-1.1B-Chat-v1.0-f16.gguf，然后点击下载。
命令行下载：推荐使用 huggingface-hub Python 库进行下载。首先安装该库：

pip3 install huggingface-hub

然后使用以下命令下载单个模型文件到当前目录：

huggingface-cli download andrijdavid/TinyLlama-1.1B-Chat-v1.0-GGUF TinyLlama-1.1B-Chat-v1.0-f16.gguf --local-dir . --local-dir-use-symlinks False

运行模型

llama.cpp 命令示例

确保使用的 llama.cpp 版本为 d0cee0d 或更高版本，运行以下命令：

./main -ngl 35 -m TinyLlama-1.1B-Chat-v1.0-f16.gguf --color -c 4096 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "<PROMPT>"

-ngl 35：指定要卸载到 GPU 的层数，若无 GPU 加速可移除该参数。
-c 4096：指定所需的序列长度，更长的序列长度需要更多资源，可根据情况调整。
若要进行聊天式对话，将 -p <PROMPT> 参数替换为 -i -ins。

在 text-generation-webui 中运行

更多说明可参考 text-generation-webui 文档。

从 Python 代码运行

可以使用 llama-cpp-python 或 ctransformers 库从 Python 代码中使用 GGUF 模型。推荐使用 llama-cpp-python 库，安装命令如下：

# 无 GPU 加速的基础安装
pip install llama-cpp-python
# 使用 NVidia CUDA 加速
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# 使用 OpenBLAS 加速
CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
# 使用 CLBLast 加速
CMAKE_ARGS="-DLLAMA_CLBLAST=on" pip install llama-cpp-python
# 使用 AMD ROCm GPU 加速（仅适用于 Linux）
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
# 使用 Metal GPU 加速（仅适用于 macOS 系统）
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
# 在 Windows PowerShell 中设置变量示例（以 NVidia CUDA 为例）
$env:CMAKE_ARGS = "-DLLAMA_OPENBLAS=on"
pip install llama-cpp-python

简单的 llama-cpp-python 示例代码如下：

from llama_cpp import Llama
# 设置要卸载到 GPU 的层数，若无 GPU 加速则设置为 0
llm = Llama(
  model_path="./TinyLlama-1.1B-Chat-v1.0-f16.gguf",  # 先下载模型文件
  n_ctx=32768,  # 最大序列长度，更长的序列长度需要更多资源
  n_threads=8,            # CPU 线程数，可根据系统和性能调整
  n_gpu_layers=35         # 若有 GPU 加速，指定要卸载到 GPU 的层数
)
# 简单推理示例
output = llm(
  "<PROMPT>", # 提示信息
  max_tokens=512,  # 生成最多 512 个令牌
  stop=["</s>"],   # 示例停止令牌，使用前请检查是否适用于该模型
  echo=True        # 是否回显提示信息
)
# 聊天完成 API
llm = Llama(model_path="./TinyLlama-1.1B-Chat-v1.0-f16.gguf", chat_format="llama-2")  # 根据使用的模型设置聊天格式
llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

与 LangChain 结合使用

以下是使用 llama-cpp-python 和 ctransformers 与 LangChain 结合的指南：

✨ 主要特性

支持多种客户端和库：GGUF 格式的模型文件支持多种客户端和库，如 llama.cpp、text-generation-webui、Ollama 等。
量化方法多样：提供多种量化方法，如 GGML_TYPE_Q2_K、GGML_TYPE_Q3_K、GGML_TYPE_Q4_K 等，可根据需求选择不同的量化级别。
易于使用：可以通过命令行、Python 代码等多种方式运行模型，方便用户进行推理和对话。

📦 安装指南

下载依赖库

若要从 Python 代码中使用 GGUF 模型，需要安装相应的依赖库，如 llama-cpp-python 或 ctransformers，安装命令如下：

# 安装 llama-cpp-python
pip install llama-cpp-python
# 或安装 ctransformers
pip install ctransformers

下载模型文件

可按照上述“快速开始”部分的方法下载 GGUF 格式的模型文件。

💻 使用示例

基础用法

from llama_cpp import Llama
# 设置要卸载到 GPU 的层数，若无 GPU 加速则设置为 0
llm = Llama(
  model_path="./TinyLlama-1.1B-Chat-v1.0-f16.gguf",  # 先下载模型文件
  n_ctx=32768,  # 最大序列长度，更长的序列长度需要更多资源
  n_threads=8,            # CPU 线程数，可根据系统和性能调整
  n_gpu_layers=35         # 若有 GPU 加速，指定要卸载到 GPU 的层数
)
# 简单推理示例
output = llm(
  "<PROMPT>", # 提示信息
  max_tokens=512,  # 生成最多 512 个令牌
  stop=["</s>"],   # 示例停止令牌，使用前请检查是否适用于该模型
  echo=True        # 是否回显提示信息
)
print(output)

高级用法

# 聊天完成 API
llm = Llama(model_path="./TinyLlama-1.1B-Chat-v1.0-f16.gguf", chat_format="llama-2")  # 根据使用的模型设置聊天格式
llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

📚 详细文档

关于 GGUF

GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式，用于替代不再受 llama.cpp 支持的 GGML 格式。以下是已知支持 GGUF 的客户端和库的不完全列表：

llama.cpp：GGUF 的源项目，提供命令行界面（CLI）和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有众多功能和强大的扩展，支持 GPU 加速。
Ollama：轻量级且可扩展的框架，用于在本地构建和运行语言模型，具有简单的 API 用于创建、管理和执行模型。
KoboldCpp：全面的 Web UI，支持所有平台和架构的 GPU 加速，尤其以讲故事功能著称。
GPT4All：免费开源的本地 GUI，支持 Windows、Linux 和 macOS，具有完整的 GPU 加速。
LM Studio：适用于 Windows 和 macOS（Silicon）的直观强大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：具有多种独特功能的 Web UI，包括全面的模型库，方便模型选择。
Faraday.dev：美观、用户友好的基于字符的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
llama-cpp-python：Python 库，具备 GPU 加速、LangChain 支持和 OpenAI 兼容的 API 服务器。
candle：基于 Rust 的 ML 框架，专注于性能，包括 GPU 支持，设计易于使用。
ctransformers：Python 库，具有 GPU 加速、LangChain 支持和 OpenAI 兼容的 AI 服务器。
localGPT：开源项目，支持与文档进行私密对话。

量化方法说明

点击查看详情

新的量化方法如下： - GGML_TYPE_Q2_K：“type-1” 2 位量化，超级块包含 16 个块，每个块有 16 个权重。块的缩放和最小值使用 4 位量化，最终每个权重有效使用 2.5625 位（bpw）。 - GGML_TYPE_Q3_K：“type-0” 3 位量化，超级块包含 16 个块，每个块有 16 个权重。缩放使用 6 位量化，最终使用 3.4375 bpw。 - GGML_TYPE_Q4_K：“type-1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。缩放和最小值使用 6 位量化，最终使用 4.5 bpw。 - GGML_TYPE_Q5_K：“type-1” 5 位量化，与 GGML_TYPE_Q4_K 具有相同的超级块结构，最终使用 5.5 bpw。 - GGML_TYPE_Q6_K：“type-0” 6 位量化，超级块包含 16 个块，每个块有 16 个权重。缩放使用 8 位量化，最终使用 6.5625 bpw。

原始模型卡片

TinyLlama-1.1B

https://github.com/jzhang38/TinyLlama

TinyLlama 项目旨在使用 16 个 A100-40G GPU，在 3 万亿个令牌上预训练一个 1.1B 的 Llama 模型，预计在 90 天内完成。训练于 2023 年 9 月 1 日开始。

该模型采用了与 Llama 2 相同的架构和分词器，这意味着 TinyLlama 可以在许多基于 Llama 的开源项目中直接使用。此外，TinyLlama 仅具有 1.1B 参数，非常紧凑，适用于对计算和内存要求较低的应用场景。

本模型

这是在 TinyLlama/TinyLlama-1.1B-intermediate-step-1431k-3T 基础上微调的聊天模型。训练遵循 HF's Zephyr 的训练方法。模型首先在 UltraChat 数据集的一个变体上进行微调，该数据集包含由 ChatGPT 生成的各种合成对话。然后，使用 🤗 TRL's 的 DPOTrainer 在 openbmb/UltraFeedback 数据集上进一步对齐，该数据集包含 64k 个由 GPT-4 排名的提示和模型完成结果。

使用方法

需要 transformers>=4.34 版本，更多信息请查看 TinyLlama 的 GitHub 页面。

# 从源代码安装 transformers - 仅适用于版本 <= v4.34
# pip install git+https://github.com/huggingface/transformers.git
# pip install accelerate

import torch
from transformers import pipeline

pipe = pipeline("text-generation", model="TinyLlama/TinyLlama-1.1B-Chat-v1.0", torch_dtype=torch.bfloat16, device_map="auto")

# 使用分词器的聊天模板格式化每条消息 - 请参阅 https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
    {
        "role": "system",
        "content": "You are a friendly chatbot who always responds in the style of a pirate",
    },
    {"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])
# <|system|>
# You are a friendly chatbot who always responds in the style of a pirate.</s>
# <|user|>
# How many helicopters can a human eat in one sitting?</s>
# <|assistant|>
# ...