Jiuzhou Base
九州是一个面向地球科学领域的开源基础语言模型,通过大规模地学语料继续预训练构建,具备丰富的地学知识和指令跟随能力。
下载量 23
发布时间 : 3/31/2024
模型简介
九州模型以Mistral-7B-v0.1为基座,通过领域大语言模型预训练框架(PreparedLLM)与'两阶段预适应预训练'算法构建,专注于地球科学领域的知识理解和问题解决。
模型特点
地学知识丰富
通过340万地学相关文档的预训练,模型具备丰富的地球科学专业知识
两阶段预适应预训练
采用TSPT算法提升有限地学数据使用效率,克服大模型继续预训练的技术瓶颈
指令跟随能力
通过高质量指令数据微调,模型能够准确理解并执行用户指令
模型能力
地球科学知识问答
专业术语解释
多轮对话
科学数据分析
研究报告生成
使用案例
科研教育
地学知识问答
回答地球科学领域的专业问题
在GeoBench基准测试中超越GPT-3.5
学术辅助
帮助研究人员理解和分析地学文献
环境监测
气候变化分析
解读气候数据并提供分析报告
🚀 九州:面向地球科学的开源基础语言模型
本项目聚焦地球科学领域,利用基础语言模型从海量数据中提取与整合知识,以应对全球变化挑战、推动可持续发展和加速科学发现。通过持续预训练和指令微调,构建了高精度、实用性强的地球科学基础语言模型——九州。
🚀 快速开始
推理示例
以下是使用 JiuZhou-Instruct-v0.2
进行推理的代码示例:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")
model_path = "itpossible/JiuZhou-Instruct-v0.2"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map=device)
text = "What is geoscience?"
messages = [{"role": "user", "content": text}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)
outputs_id = model.generate(inputs, max_new_tokens=600, do_sample=True)
outputs = tokenizer.batch_decode(outputs_id, skip_special_tokens=True)[0]
print(outputs)
✨ 主要特性
- 专业知识丰富:基于大规模地球科学语料库持续预训练,模型具备丰富的地球科学专业知识。
- 性能卓越:在地球科学任务和通用任务的评估中,均展现出出色的性能,超越了多个基线模型。
- 框架先进:采用了特定领域大语言模型预训练框架(PreparedLLM)和“两阶段预适应预训练”算法,提升了模型的训练效率和性能。
📦 安装指南
项目部署
git clone https://github.com/THU-ESIS/JiuZhou.git
cd JiuZhou
pip install -e ".[torch,metrics]"
模型训练
预训练
llamafactory-cli train examples/train_lora/JiuZhou_pretrain_sft.yaml
指令微调
llamafactory-cli train examples/train_lora/JiuZhou_lora_sft.yaml
与微调后的模型交互
llamafactory-cli chat examples/inference/JiuZhou_lora_sft.yaml
合并指令微调后的 LoRA 权重与原始模型权重
llamafactory-cli export examples/merge_lora/JiuZhou_lora_sft.yaml
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")
model_path = "itpossible/JiuZhou-Instruct-v0.2"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map=device)
text = "What is geoscience?"
messages = [{"role": "user", "content": text}]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(device)
outputs_id = model.generate(inputs, max_new_tokens=600, do_sample=True)
outputs = tokenizer.batch_decode(outputs_id, skip_special_tokens=True)[0]
print(outputs)
📚 详细文档
模型下载
模型系列 | 模型 | 下载链接 | 描述 |
---|---|---|---|
九州 | JiuZhou-base | Huggingface | 基础模型(富含地球科学知识) |
九州 | JiuZhou-Instruct-v0.1 | Huggingface | 指令模型(指令对齐导致部分地球科学知识丢失,但具备指令跟随能力) 在中英双语的 Alpaca_GPT4 和 GeoSignal 上进行 LoRA 微调 |
九州 | JiuZhou-Instruct-v0.2 | HuggingFace Wisemodel |
指令模型(指令对齐导致部分地球科学知识丢失,但具备指令跟随能力) 使用高质量通用指令数据进行微调 |
ClimateChat | ClimateChat | HuggingFace Wisemodel |
指令模型 在 JiuZhou-base 上进行指令跟随微调 |
Chinese-Mistral | Chinese-Mistral-7B | HuggingFace Wisemodel ModelScope |
基础模型 |
Chinese-Mistral | Chinese-Mistral-7B-Instruct-v0.1 | HuggingFace Wisemodel ModelScope |
指令模型 在中英双语的 Alpaca_GPT4 上进行 LoRA 微调 |
Chinese-Mistral | Chinese-Mistral-7B-Instruct-v0.2 | HuggingFace Wisemodel |
指令模型 使用百万条高质量指令进行 LoRA 微调 |
PreparedLLM | Prepared-Llama | Huggingface Wisemodel |
基础模型 使用少量地球科学数据进行持续预训练 建议使用九州模型 |
模型性能
地球科学能力
使用 GeoBench 基准测试评估九州模型的性能。在客观任务中,九州模型的表现优于 GPT-3.5:
在主观任务的六项标准中,九州模型的得分也高于基线模型:
通用能力
使用 C-Eval、CMMLU 和 MMLU 三个基准数据集评估九州模型的性能。与 Llama 和 Mistral 模型的其他变体相比,九州模型表现出色:
模型训练过程
训练语料库
语料库由 5000 万篇通用文档和 340 万篇地球科学相关文档组成。
训练框架
使用本研究提出的九州框架。
两阶段预适应预训练(TSPT)
TSPT 提高了有限地球科学数据的使用效率,克服了大语言模型持续预训练中的一些技术瓶颈。 TSPT 与单阶段训练算法的区别:
TSPT 与单阶段预训练算法性能对比:
🔧 技术细节
本研究以 Mistral-7B-v0.1 为基础模型,在大规模地球科学语料库上继续预训练。同时,引入了 特定领域大语言模型预训练框架(PreparedLLM) 和“两阶段预适应预训练”算法,构建了地球科学大语言模型——九州。
📄 许可证
文档中未提及相关许可证信息。
📚 引用
@article{chen2024preparedllm,
author = {Chen, Zhou and Lin, Ming and Wang, Zimeng and Zang, Mingrun and Bai, Yuqi},
title = {PreparedLLM: Effective Pre-pretraining Framework for Domain-specific Large Language Models},
year = {2024},
journal = {Big Earth Data},
pages = {1--24},
doi = {10.1080/20964471.2024.2396159},
url = {https://doi.org/10.1080/20964471.2024.2396159}
}
🙏 致谢
🎉 最新消息
- [2024-12-31] 论文 JiuZhou: Open Foundation Language Models and Effective Pre-training Framework for Geoscience 已被 International Journal of Digital Earth 接收发表。代码与数据。
- [2024-10-11] 微信文章:PreparedLLM: Effective Pre-pretraining Framework for Domain-specific Large Language Models。
- [2024-09-06] 发布 ClimateChat 指令模型。
- [2024-08-31] 论文 PreparedLLM: Effective Pre-pretraining Framework for Domain-specific Large Language Models 已被 Big Earth Data 期刊接收发表。
- [2024-08-31] 发布 Chinese-Mistral-7B-Instruct-v0.2 指令模型。在语言理解和多轮对话能力方面有显著提升。
- [2024-06-30] 发布 JiuZhou-Instruct-v0.2 指令模型。在语言理解和多轮对话能力方面有显著提升。
- [2024-05-15] 微信文章:Chinese Vocabulary Expansion Incremental Pretraining for Large Language Models: Chinese-Mistral Released。
- [2024-04-04] 发布 Chinese-Mistral-7B-Instruct-v0.1 指令模型。
- [2024-03-31] 发布 Chinese-Mistral-7B-v0.1 基础模型。
- [2024-03-15] 发布基础版本 JiuZhou-base、指令版本 JiuZhou-instruct-v0.1 和 中间检查点。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文