T-pro-it-2.0 开源AI模型 - 多任务场景下提供高质量推理与响应

首页

T Pro It 2.0

由 t-tech 开发

T-pro-it-2.0 是基于 Qwen 3 模型家族构建的模型，结合了持续预训练和对齐技术，能在多种任务中提供高质量的推理和响应。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #高精度推理 #长上下文处理 #多框架适配

下载量 1,405

发布时间 : 7/17/2025

模型简介

T-pro-it-2.0 是一个强大的语言模型，专为推理和响应任务设计，适用于多种应用场景。

模型特点

基于强大基础

构建于 Qwen 3 模型家族之上，具备优秀的语言理解和生成能力。

多种训练技术结合

采用持续预训练和对齐技术，提升模型性能。

丰富数据集训练

使用不同类型和规模的数据集进行训练，增强模型在各种任务上的表现。

多模式支持

支持多种推理框架，如 SGLang、HF、VLLM 等，方便用户根据需求选择。

长上下文处理

原生支持 32,768 个标记的上下文长度，并可通过特定配置扩展至 128K 上下文。

模型能力

文本生成

推理任务

多语言支持

长上下文处理

使用案例

虚拟助手

对话助手

作为 T 科技公司的虚拟助手，提供有用的对话支持。

高质量的对话响应

数学计算

定积分计算

计算定积分并逐步解释求解过程。

准确的数学计算和解释

🚀 T-pro-it-2.0

T-pro-it-2.0 是基于 Qwen 3 模型家族构建的模型，结合了持续预训练和对齐技术，能在多种任务中提供高质量的推理和响应。

⚠️ 重要提示

建议用户谨慎使用该模型，并对确保模型响应符合可接受的道德和安全标准所需的任何额外训练和监督负责。将此模型集成到工业或商业解决方案中的责任完全由选择部署它的人承担。

🚀 快速开始

若要开始使用 T-pro-it-2.0 模型，你可以参考后续的安装和使用示例部分，根据自身需求选择合适的推理框架进行部署和调用。

✨ 主要特性

基于强大基础：构建于 Qwen 3 模型家族之上，具备优秀的语言理解和生成能力。
多种训练技术结合：采用持续预训练和对齐技术，提升模型性能。
丰富数据集训练：使用不同类型和规模的数据集进行训练，增强模型在各种任务上的表现。
多模式支持：支持多种推理框架，如 SGLang、HF、VLLM 等，方便用户根据需求选择。
长上下文处理：原生支持 32,768 个标记的上下文长度，并可通过特定配置扩展至 128K 上下文。

📦 安装指南

文档未提及具体安装步骤，若需使用该模型，可参考相应推理框架（如 SGLang、transformers、vllm 等）的官方文档进行安装和配置。

💻 使用示例

基础用法

以下为使用不同推理框架调用 T-pro-it-2.0 模型的基础示例：

SGLang Usage

为获得更好的质量和稳定性能，建议使用 SGLang 作为推理框架。

python -m sglang.launch_server \
    --model-path t-tech/T-pro-it-2.0 \
    --reasoning-parser qwen3

服务器启动并监听在 localhost:30000 后，可通过 OpenAI Python 客户端发送基于聊天的请求。

import openai

client = openai.OpenAI(
    base_url="http://127.0.0.1:30000/v1",
    api_key="ANY"  # 服务器会忽略 API 密钥
)

prompt = (
    "请计算定积分 ∫_0^1 x² eˣ dx，逐步解释求解过程并给出最终结果。"
)

completion = client.chat.completions.create(
    model="ANY",  # 服务器会忽略模型名称
    messages=[
        {"role": "system", "content": "你是 T-pro，T 科技公司的虚拟助手。你的任务是成为一个有用的对话助手。"},
        {"role": "user", "content": prompt}
    ],
    # 必需：使用“推荐生成参数”表中的采样参数
    temperature=0.6,
    presence_penalty=1.0,
)

# 生成的回复在 `completion.choices[0].message.content` 中
print(completion.choices[0].message.content)

注意：每次完成调用时，必须同时包含 temperature 和 presence_penalty。

HF Usage

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
torch.manual_seed(42)

model_name = "t-tech/T-pro-it-2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    torch_dtype="auto",
    device_map="auto",
)

prompt = (
    "请计算定积分 ∫_0^1 x² eˣ dx，逐步解释求解过程并给出最终结果。"
)
messages = [
    {"role": "system", "content": "你是 T-pro，T 科技公司的虚拟助手。你的任务是成为一个有用的对话助手。"},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 在思考和非思考模式之间切换。默认为 True。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

print(response)

VLLM Usage

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "t-tech/T-pro-it-2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(model=model_name, max_model_len=8192)
sampling_params = SamplingParams(temperature=0.7,
                                repetition_penalty=1.05,
                                top_p=0.8, top_k=70,
                                max_tokens=512)

prompt = (
    "请计算定积分 ∫_0^1 x² eˣ dx，逐步解释求解过程并给出最终结果。"
)
messages = [
    {"role": "system", "content": "你是 T-pro，T 科技公司的虚拟助手。你的任务是成为一个有用的对话助手。"},
    {"role": "user", "content": prompt}
]

prompt_token_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

outputs = llm.generate(prompt_token_ids=prompt_token_ids, sampling_params=sampling_params)

generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)

高级用法

在处理长上下文时，T-pro-it-2.0 原生支持 32,768 个标记的上下文长度。对于输入显著超过此限制的对话，可遵循 Qwen3 模型卡中关于处理长文本的建议。例如，在 SGLang 中，可使用以下命令启用 128K 上下文支持：

llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

📚 详细文档

📚 数据集

指令预训练（Instruction Pre-Training）：使用 400 亿标记的指令数据，其中三分之一专注于推理任务。
监督微调（Supervised Fine-Tuning, SFT）：约 500K 高质量且多样化的指令，复杂度均衡。推理任务约占数据集的 20%。
偏好调整（Preference Tuning）：约 100K 精心挑选的指令，根据长度和类型对通用任务进行过滤，并对推理任务进行领域平衡选择。

📊 基准测试

模型	MERA	ruMMLU	Ru Arena Hard	ru AIME 2025	ru LCB
T-pro 2.0	0.660	0.790	0.876	0.646	0.563
Qwen 3 32B	0.584	0.740	0.836	0.625	0.537
Ruadapt 3 32B V2	0.574	0.737	0.660	0.450	0.500
DeepSeek-R1-Distill-Qwen-32B	0.508	0.702	0.426	0.402	0.493
Gemma 3 27B	0.577	0.695	0.759	0.231	0.261

思考与非思考模式切换

要在 HuggingFace 中启用或禁用推理模式，可在 tokenizer.apply_chat_template 中设置 enable_thinking 标志。更多详细信息，请参阅：

模式	温度（Temperature）	存在惩罚（presence_penalty）
非思考模式（通用请求）	≤ 0.3	1.0
思考模式（标准请求）	≈ 0.6	1.0
复杂推理请求	≥ 0.8	1.0

🔧 技术细节

T-pro-it-2.0 模型基于 Qwen 3 模型家族构建，通过持续预训练和对齐技术进行优化。在不同阶段使用了多种数据集进行训练，以提升模型在推理任务和通用语言处理任务上的性能。在推理过程中，支持多种推理框架，并可通过设置不同的参数来控制模型的输出。同时，模型原生支持 32,768 个标记的上下文长度，并可通过特定配置扩展上下文处理能力。