许可证:其他
许可证名称:cycleresearcher-license
许可证链接:LICENSE
基础模型:
- mistralai/Mistral-Nemo-Instruct-2407
支持语言:
- 英语
- 中文
- 日语
- 韩语
- 法语
- 德语
评估指标:
- 准确率
特殊授权提示:"您同意不在未明确披露AI辅助的情况下,使用该模型直接生成用于提交或正式发表的研究论文。"
特殊授权字段:
名字:文本
姓氏:文本
国家:国家选择
所属机构:文本
学术身份:
类型:下拉选择
选项:
- 学生
- 研究员
- 教授
- 行业专业人士
- 其他
具体日期:日期选择器
使用目的:
类型:下拉选择
选项:
- 研究构思
- 文献综述辅助
- 实验设计规划
- 方法论开发
- 草稿写作练习
- 研究验证
- 假设生成
- 参考文献整理
- 写作改进
- 学术培训
- 研究规划
- 辅助工具
- 标签:其他
值:其他
研究领域:
类型:下拉选择
选项:
- 机器学习
- 计算机视觉
- 自然语言处理
- 机器人学
- 其他AI领域
- 标签:其他
值:其他
地理位置:IP定位
我同意不提交未经适当披露的模型生成论文:复选框
我同意在任何成果出版物中明确标注AI辅助:复选框
我同意仅将本模型用于研究辅助目的:复选框
我理解该模型生成的实验结果均为模拟数据:复选框
特殊授权按钮内容:提交
库名称:transformers
数据集:
- WestlakeNLP/Research-14K
CycleResearcher:基于强化学习与迭代反馈的自动化研究系统
主页:https://wengsyx.github.io/Researcher/
本模型是CycleResearcher的原始版本,其效果与论文报告结果一致。但考虑到其存在一定程度的潜在危害,下载该模型需经过人工审核。除非您能提供详细的研究计划和使用该模型的具体理由,否则我们将不会批准您下载和分发该模型。
您可以直接下载经过额外安全对齐的模型:https://huggingface.co/WestlakeNLP/CycleResearcher-12B
对于安全版模型,您只需提供必要信息,下载将自动获得批准。
模型规格
模型信息
CycleResearcher模型系列包含两个主要变体:
- ML系列:专为机器学习研究训练,涵盖计算机视觉(CV)、自然语言处理(NLP)和多媒体(MM)
- 科学系列:扩展至更广泛科学领域(即将推出)
所有模型均在我们的Research-8k数据集上进行了广泛训练,并通过CycleReviewer反馈循环进行优化。根据我们的许可协议,所有模型及其衍生品不得在未适当披露AI辅助的情况下用于生成论文。我们还提供基于FastDetectGPT的工具来检测这些模型的潜在滥用。
模型发布日期:2024年10月
知识截止日期:2024年10月
开源许可
本仓库代码基于Apache-2.0许可证开源。模型权重基于CycleResearcher-License协议开源。
模型性能
CycleReviewer评估的研究论文生成结果:
论文类型 |
来源 |
平均最低分↑ |
平均最高分↑ |
平均分↑ |
接受率 |
会议录用论文†|
人类专家 |
3.91 |
6.98 |
5.69 |
100.00% |
预印本论文 |
人类专家 |
3.24 |
6.62 |
5.24 |
29.63% |
AI科学家 |
AI |
2.20 |
5.70 |
4.31 |
0.00% |
CycleResearcher-12B |
AI |
3.47 |
6.75 |
5.36 |
35.13% |
CycleResearcher-72B |
AI |
3.65 |
6.58 |
5.38 |
33.64% |
CycleResearcher-123B |
AI |
3.31 |
6.42 |
5.13 |
21.19% |
检测CycleResearcher滥用
为确保模型负责任使用,我们采用Fast-DetectGPT方法分类论文是否由机器生成。不同格式的检测性能对比,人类样本来自Research-8k和Reviewer-5k的测试集。
模型 |
格式 |
准确率 |
F1分数 |
Researcher-12B |
论文 |
98.38% |
98.37 |
Researcher-72B |
论文 |
97.52% |
97.49 |
Researcher-123B |
论文 |
98.88% |
98.87 |
安装
pip install cycleresearcher
pip install torch>=2.0.0
pip install transformers>=4.44.0
pip install vllm
系统要求
- Python >= 3.8
- PyTorch >= 2.0.0
- Transformers >= 4.44.0
- CUDA >= 11.8 (GPU加速需要)
硬件配置
不同模型规模的推荐配置:
模型 |
推荐配置 |
最低配置 |
CycleResearcher-12B |
2x H100 80G |
1x H100 80G |
CycleResearcher-72B |
8x H100 80G |
4x H100 80G |
CycleResearcher-123B |
8x H100 80G |
8x H100 80G |
快速开始
使用Transformers
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "WestlakeNLP/CycleResearcher-12B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.float16,
device_map="auto",
max_memory={i: "24GiB" for i in range(torch.cuda.device_count())},
)
generation_config = {
"max_length": 19000,
"temperature": 0.1,
"top_p": 0.95,
"pad_token_id": None,
"do_sample": True,
}
system_prompt = """您是一个研究助理AI,负责根据提供的文献生成科学论文。请遵循以下步骤:
1. 分析给定的参考文献
2. 找出现有研究空白以确立新研究的动机
3. 提出新研究工作的主要思路
4. 以LaTeX格式撰写论文主体内容,包括:
- 标题
- 摘要
- 引言
- 相关工作
- 方法
5. 生成JSON格式的实验设置细节以指导研究人员
6. 收到JSON格式的实验结果后进行分析
7. 完成论文写作:
- 结果
- 讨论
- 结论
- 贡献
确保所有内容具有原创性、学术严谨性并符合标准科学写作规范。"""
references = """@article{Qiu2020PretrainedMF,
title={Pre-trained models for natural language processing: A survey},
author={Xipeng Qiu and Tianxiang Sun and Yige Xu and Yunfan Shao and Ning Dai and Xuanjing Huang},
journal={Science China Technological Sciences},
year={2020},
volume={63},
pages={1872 - 1897}
}
@article{Long2022VisionandLanguagePM,
title={Vision-and-Language Pretrained Models: A Survey},
author={Siqu Long and Feiqi Cao and Soyeon Caren Han and Haiqing Yang},
journal={IJCAI},
year={2022},
}
@inproceedings{Klicpera2019DiffusionIG,
title={Diffusion Improves Graph Learning},
author={Johannes Klicpera and Stefan Wei{\ss}enberger and Stephan G{\"u}nnemann},
booktitle={Neural Information Processing Systems},
year={2019}
以上内容代表该领域的相关文献。请分析并提供研究动机和主要思路。然后以LaTeX格式提供标题、摘要、引言、相关工作和方法部分。
"""
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": references}
]
prompt = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, **generation_config)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
使用VLLM(推荐更快速推理)
from vllm import LLM, SamplingParams
model = LLM(
model="WestlakeNLP/CycleResearcher-12B",
tensor_parallel_size=8,
max_model_len=15000,
gpu_memory_utilization=0.95,
)
sampling_params = SamplingParams(
temperature=0.4,
top_p=0.95,
max_tokens=4096
)
outputs = model.generate([prompt], sampling_params)
输入数据格式
CycleResearcher期望以BibTeX格式输入带摘要的参考文献。示例格式:
@article{example2023,
title = {示例论文标题},
author = {作者A and 作者B},
journal = {期刊名称},
year = {2024},
abstract = {这是一个提供背景信息的示例摘要...}
}
摘要:这是一个提供背景信息的示例摘要...
@article{example2024,
title = {示例论文标题},
author = {作者A and 作者B},
journal = {期刊名称},
year = {2024},
}
输出格式
模型生成的结构化输出:
{
'title': '论文标题',
'abstract': '论文摘要',
'latex': 'LaTeX格式的论文主体内容',
'motivation': '研究动机',
'idea': '主要研究思路',
'Experimental_Setup': '实验配置(JSON/文本)',
'Experimental_results': '结果与发现(JSON/文本)',
'generated_text': '完整原始生成文本'
}
训练与评估数据集
- Research-8k:包含12,696个训练样本和802个测试样本
- Review-5k:包含4,970篇论文及超过16,000条审稿意见
如需申请访问这些数据集,请联系wengsyx@gmail.com。
许可协议
代码基于Apache 2.0许可证发布。模型使用需遵守CycleResearcher-License协议。
引用
@inproceedings{cycleresearcher2024,
title={CycleResearcher:通过自动评审改进自动化研究},
author={匿名作者},
booktitle={国际学习表征会议},
year={2025}
}
联系方式
如有问题和反馈,请:
- 在GitHub提交issue
- 联系wengsyx@gmail.com
注意:此为研究预览版。功能与性能可能频繁更新。