🚀 T-pro-it-2.0
T-pro-it-2.0 是基于 Qwen 3 模型家族构建的模型,结合了持续预训练和对齐技术,能在多种任务中提供高质量的推理和响应。
⚠️ 重要提示
建议用户谨慎使用该模型,并对确保模型响应符合可接受的道德和安全标准所需的任何额外训练和监督负责。将此模型集成到工业或商业解决方案中的责任完全由选择部署它的人承担。
🚀 快速开始
若要开始使用 T-pro-it-2.0 模型,你可以参考后续的安装和使用示例部分,根据自身需求选择合适的推理框架进行部署和调用。
✨ 主要特性
- 基于强大基础:构建于 Qwen 3 模型家族之上,具备优秀的语言理解和生成能力。
- 多种训练技术结合:采用持续预训练和对齐技术,提升模型性能。
- 丰富数据集训练:使用不同类型和规模的数据集进行训练,增强模型在各种任务上的表现。
- 多模式支持:支持多种推理框架,如 SGLang、HF、VLLM 等,方便用户根据需求选择。
- 长上下文处理:原生支持 32,768 个标记的上下文长度,并可通过特定配置扩展至 128K 上下文。
📦 安装指南
文档未提及具体安装步骤,若需使用该模型,可参考相应推理框架(如 SGLang、transformers、vllm 等)的官方文档进行安装和配置。
💻 使用示例
基础用法
以下为使用不同推理框架调用 T-pro-it-2.0 模型的基础示例:
SGLang Usage
为获得更好的质量和稳定性能,建议使用 SGLang 作为推理框架。
python -m sglang.launch_server \
--model-path t-tech/T-pro-it-2.0 \
--reasoning-parser qwen3
服务器启动并监听在 localhost:30000
后,可通过 OpenAI Python 客户端发送基于聊天的请求。
import openai
client = openai.OpenAI(
base_url="http://127.0.0.1:30000/v1",
api_key="ANY"
)
prompt = (
"请计算定积分 ∫_0^1 x² eˣ dx,逐步解释求解过程并给出最终结果。"
)
completion = client.chat.completions.create(
model="ANY",
messages=[
{"role": "system", "content": "你是 T-pro,T 科技公司的虚拟助手。你的任务是成为一个有用的对话助手。"},
{"role": "user", "content": prompt}
],
temperature=0.6,
presence_penalty=1.0,
)
print(completion.choices[0].message.content)
注意:每次完成调用时,必须同时包含 temperature
和 presence_penalty
。
HF Usage
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
torch.manual_seed(42)
model_name = "t-tech/T-pro-it-2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto",
)
prompt = (
"请计算定积分 ∫_0^1 x² eˣ dx,逐步解释求解过程并给出最终结果。"
)
messages = [
{"role": "system", "content": "你是 T-pro,T 科技公司的虚拟助手。你的任务是成为一个有用的对话助手。"},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
VLLM Usage
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
model_name = "t-tech/T-pro-it-2.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(model=model_name, max_model_len=8192)
sampling_params = SamplingParams(temperature=0.7,
repetition_penalty=1.05,
top_p=0.8, top_k=70,
max_tokens=512)
prompt = (
"请计算定积分 ∫_0^1 x² eˣ dx,逐步解释求解过程并给出最终结果。"
)
messages = [
{"role": "system", "content": "你是 T-pro,T 科技公司的虚拟助手。你的任务是成为一个有用的对话助手。"},
{"role": "user", "content": prompt}
]
prompt_token_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
outputs = llm.generate(prompt_token_ids=prompt_token_ids, sampling_params=sampling_params)
generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)
高级用法
在处理长上下文时,T-pro-it-2.0 原生支持 32,768 个标记的上下文长度。对于输入显著超过此限制的对话,可遵循 Qwen3 模型卡 中关于处理长文本的建议。
例如,在 SGLang 中,可使用以下命令启用 128K 上下文支持:
llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768
📚 详细文档
📚 数据集
- 指令预训练(Instruction Pre-Training):使用 400 亿标记的指令数据,其中三分之一专注于推理任务。
- 监督微调(Supervised Fine-Tuning, SFT):约 500K 高质量且多样化的指令,复杂度均衡。推理任务约占数据集的 20%。
- 偏好调整(Preference Tuning):约 100K 精心挑选的指令,根据长度和类型对通用任务进行过滤,并对推理任务进行领域平衡选择。
📊 基准测试
模型 |
MERA |
ruMMLU |
Ru Arena Hard |
ru AIME 2025 |
ru LCB |
T-pro 2.0 |
0.660 |
0.790 |
0.876 |
0.646 |
0.563 |
Qwen 3 32B |
0.584 |
0.740 |
0.836 |
0.625 |
0.537 |
Ruadapt 3 32B V2 |
0.574 |
0.737 |
0.660 |
0.450 |
0.500 |
DeepSeek-R1-Distill-Qwen-32B |
0.508 |
0.702 |
0.426 |
0.402 |
0.493 |
Gemma 3 27B |
0.577 |
0.695 |
0.759 |
0.231 |
0.261 |
思考与非思考模式切换
要在 HuggingFace 中启用或禁用推理模式,可在 tokenizer.apply_chat_template
中设置 enable_thinking
标志。
更多详细信息,请参阅:
推荐生成参数
模式 |
温度(Temperature) |
存在惩罚(presence_penalty) |
非思考模式(通用请求) |
≤ 0.3 |
1.0 |
思考模式(标准请求) |
≈ 0.6 |
1.0 |
复杂推理请求 |
≥ 0.8 |
1.0 |
- 混合推理模型需要仔细调整采样超参数,这些参数因领域而异。
- 对于直接查询,使用较低的温度;对于复杂的“思考模式”任务,使用较高的温度。
- 存在惩罚在 0 到 2 之间可以帮助避免重复输出。
🔧 技术细节
T-pro-it-2.0 模型基于 Qwen 3 模型家族构建,通过持续预训练和对齐技术进行优化。在不同阶段使用了多种数据集进行训练,以提升模型在推理任务和通用语言处理任务上的性能。在推理过程中,支持多种推理框架,并可通过设置不同的参数来控制模型的输出。同时,模型原生支持 32,768 个标记的上下文长度,并可通过特定配置扩展上下文处理能力。
📄 许可证
该模型采用 Apache-2.0 许可证。