TinyLlama-1.1B-step-50K-105b开源模型 - 优化后可在90天内低成本完成训练

首页

Tinyllama 1.1B Step 50K 105b

由 TinyLlama 开发

TinyLlama是一个1.1B参数的Llama模型，计划在3万亿token上进行预训练，优化后可在16块A100-40G GPU上90天内完成训练。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #轻量级Llama #高效预训练 #低资源需求

下载量 14.41k

发布时间 : 9/1/2023

模型简介

TinyLlama项目旨在预训练一个紧凑的1.1B参数Llama模型，兼容Llama 2架构和分词器，适用于计算和内存资源有限的应用场景。

模型特点

高效训练

通过优化，仅需16块A100-40G GPU即可在90天内完成3万亿token的预训练。

兼容性

完全采用Llama 2相同的架构和分词器，兼容多数基于Llama的开源项目。

紧凑性

仅含1.1B参数，适合计算和内存资源有限的应用场景。

模型能力

文本生成

使用案例

自然语言处理

文本生成

生成连贯的文本内容

🚀 TinyLlama-1.1B

TinyLlama项目旨在在3万亿个标记上对一个11亿参数的Llama模型进行预训练。通过适当的优化，使用16块A100 - 40G GPU，我们可以在“仅”90天内完成这一目标🚀🚀。训练已于2023年9月1日开始。

🚀 快速开始

TinyLlama项目致力于在3万亿个标记上预训练一个11亿参数的Llama模型。借助适当的优化策略，使用16块A100 - 40G GPU，仅需90天即可完成训练。你可以按照以下步骤开始使用：

from transformers import AutoTokenizer
import transformers 
import torch
model = "PY007/TinyLlama-1.1B-step-50K-105b"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)

sequences = pipeline(
    'The TinyLlama project aims to pretrain a 1.1B Llama model on 3 trillion tokens. With some proper optimization, we can achieve this within a span of "just" 90 days using 16 A100-40G GPUs 🚀🚀. The training has started on 2023-09-01.',
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    repetition_penalty=1.5,
    eos_token_id=tokenizer.eos_token_id,
    max_length=500,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

⚠️ 重要提示

你需要transformers>=4.31版本。更多信息请查看 TinyLlama 的GitHub页面。

✨ 主要特性

架构兼容：采用与Llama 2完全相同的架构和分词器，这意味着TinyLlama可以无缝集成到许多基于Llama构建的开源项目中。
轻量级模型：仅有11亿参数，非常适合对计算和内存要求有限的应用场景。

📚 详细文档

本模型

这是一个经过50000步、处理了1050亿个标记后的中间检查点模型。

发布计划

我们将按照以下计划发布中间检查点。同时，为了便于比较，我们还列出了一些基线模型。

日期	Hugging Face检查点	标记数	步数	HellaSwag Acc_norm
基线模型	StableLM-Alpha-3B	8000亿	--	38.31
基线模型	Pythia-1B-intermediate-step-50k-105b	1050亿	50000	42.04
基线模型	Pythia-1B	3000亿	143000	47.16
2023-09-04	TinyLlama-1.1B-intermediate-step-50k-105b	1050亿	50000	43.50
2023-09-16	--	5000亿	--	--
2023-10-01	--	1万亿	--	--
2023-10-16	--	1.5万亿	--	--
2023-10-31	--	2万亿	--	--
2023-11-15	--	2.5万亿	--	--
2023-12-01	--	3万亿	--	--