Qwen2.5-72B-GeoGPT开源模型 - 免费助力地球科学研究的实用工具

首页

Qwen2.5 72B GeoGPT

由 GeoGPT-Research-Project 开发

Qwen2.5-72B-GeoGPT是基于大语言模型开发的、用于推动地球科学研究的工具。它在先进基础模型之上，通过一系列后训练过程，增强了在地球科学专业领域的能力。

大型语言模型

Transformers

开源协议:其他 #地球科学专用 #多语言地质分析 #科研协作支持

下载量 1,756

发布时间 : 3/6/2025

模型简介

GeoGPT系列模型是用于推动地球科学研究的大语言模型，通过持续预训练、监督微调和人类偏好对齐增强地球科学专业能力。

模型特点

地球科学专业增强

通过持续预训练、监督微调和人类偏好对齐，专门增强地球科学领域能力

开放科学原则

秉持协作、共享和共建的开放科学原则，支持全球地球科学研究社区

高质量训练数据

使用来自CommonCrawl的地球科学子集和开放获取论文的精选数据

模型能力

地球科学文本生成

地球科学问答

多轮对话

专业领域知识解答

使用案例

科学研究

地质成分分析

回答关于岩石成分的专业问题

准确识别花岗岩等岩石的主要成分

学术研究辅助

帮助地球科学家快速获取专业领域知识

提供权威可靠的地球科学信息

教育

地球科学教学

作为教学辅助工具解释复杂的地球科学概念

帮助学生理解专业概念

🚀 Qwen2.5-72B-GeoGPT

Qwen2.5-72B-GeoGPT 是基于大语言模型开发的、用于推动地球科学研究的工具。它在先进基础模型之上，通过一系列后训练过程，增强了在地球科学专业领域的能力。

✨ 主要特性

GeoGPT 系列模型是用于推动地球科学研究的大语言模型。它基于先进的基础模型，通过持续预训练（CPT）、监督微调（SFT）和人类偏好对齐等一系列后训练过程，增强了在地球科学专业领域的能力。该模型秉持协作、共享和共建的开放科学原则，致力于支持全球地球科学研究社区。

📚 详细文档

模型信息

训练数据

GeoGPT 尊重知识产权，高度重视作者、研究人员和出版商的版权及正确归属。为维护科学研究的可信度和完整性，GeoGPT 仅依赖来自可靠来源的权威公正数据。用于训练 GeoGPT 的数据来自以下来源：

CommonCrawl 的地球科学特定子集。CommonCrawl 是通过爬取开放网站整理的公开网页集合，被广泛用于训练领先的大语言模型。我们应用数据挖掘算法从原始 CommonCrawl 数据集中提取与地球科学相关的内容。更多详细信息，请参阅 GeoGPT Training Data from Geoscience Subset of CommonCrawl。元数据信息可在 Hugging Face 上获取。
遵循 CC BY 或 CC BY - NC 许可的开放获取出版物。通过严格的许可过滤，我们从 15 家出版商和 182 种期刊中精心挑选了约 280,000 篇论文。完整列表见 GeoGPT Training Data from Open Access Papers。

训练过程

GeoGPT 模型的训练分为三个阶段：

持续预训练（CPT）：此阶段利用多样化的地球科学相关语料库，以获得坚实的地球科学专业模型。
监督微调（SFT）：此阶段通过纳入地球科学家标注的问答对以及在 CPT 阶段从训练语料库生成的问答对，增强模型遵循地球科学特定指令的能力。
人类偏好对齐：此阶段使用由大语言模型标注的偏好数据进行直接偏好优化（DPO），使模型的响应符合人类期望和偏好。

模型下载

GeoGPT 模型可以从 Hugging Face 和 ModelScope 下载。

模型	总参数	支持语言	基础模型	Hugging Face	ModelScope
Qwen2.5-72B-GeoGPT	72B	主要为英语和中文	Qwen2.5-72B	🤗 Hugging Face	🤖 ModelScope

许可证和使用范围

许可证

Qwen2.5-72B-GeoGPT 遵循 Qwen2.5-72B-GeoGPT License Agreement 许可协议。请注意：Qwen2.5-72B-GeoGPT 基于 Qwen2.5-72B 进行训练，因此您对 Qwen2.5-72B-GeoGPT 的使用应遵守 Qwen LICENSE AGREEMENT。

主要预期用途

GeoGPT 模型的主要用途是支持地球科学研究，为地球科学家提供由大语言模型增强的创新工具和能力。它专门用于非商业研究和教育目的。

超出范围的使用

GeoGPT 模型不应用于任何违反适用法律法规的方式，也不应用于许可协议禁止的任何活动。此外，如本模型卡片所述，它不应用于明确支持语言以外的语言。

伦理考量和局限性

价值观

GeoGPT 倡导协作、共享和共建的开放科学原则。通过促进跨学科和跨地域的合作，GeoGPT 旨在为专家和创新者提供应对复杂全球挑战所需的工具。我们欢迎来自不同背景、经验和观点的个人加入我们，共同探索人工智能和大规模模型带来的机遇和挑战。

局限性

与其他语言模型类似，GeoGPT 模型偶尔可能会出现潜在风险的行为。这些模型可能会对用户输入生成不准确、有偏见或其他令人反感的响应。因此，在部署基于 GeoGPT 模型构建的应用程序之前，开发人员应进行全面的安全测试，并根据预期用例、文化和语言背景实施措施以降低风险。

联系我们

如果您有任何问题，请提出问题或通过 support.geogpt@zhejianglab.org 联系我们。

🚀 快速开始

Qwen2.5-72B-GeoGPT

要使用 Transformers 加载 Qwen2.5-72B-GeoGPT 模型，请使用以下代码片段：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "GeoGPT-Research-Project/Qwen2.5-72B-GeoGPT"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "What are the main components of granite?"
messages = [
    {"role": "system", "content": "You are a helpful assistant named GeoGPT."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=4096
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]