许可证:apache-2.0
数据集:
- kejian/ACL-ARC
语言:
- en
评估指标:
- f1
基础模型:
- Qwen/Qwen2.5-14B-Instruct
库名称:transformers
标签:
- 科学计量学
- 引文分析
- 引文意图分类
管道标签:零样本分类
Qwen2.5-14B-CIC-ACLARC
基于Qwen 2.5 14B Instruct并在ACL-ARC数据集上微调的引文意图分类模型。
GGUF版本:https://huggingface.co/sknow-lab/Qwen2.5-14B-CIC-ACLARC-GGUF
ACL-ARC分类
类别 |
描述 |
背景 |
被引论文提供相关背景信息或属于文献体系的一部分。 |
动机 |
引用论文直接受到被引论文的启发。 |
使用 |
引用论文使用了被引论文创建的方法或工具。 |
扩展 |
引用论文扩展了被引论文的方法、工具或数据等。 |
比较或对比 |
引用论文表达与被引论文的相似性或差异性,或对其提出异议。 |
未来 |
*被引论文可能是未来工作的潜在方向。 |
快速开始
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "sknow-lab/Qwen2.5-14B-CIC-ACLARC"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
system_prompt = """
# 上下文 #
你是一位专家研究员,负责对科学出版物中的引文意图进行分类。
########
# 目标 #
你将获得包含引文的句子,必须输出适当的类别作为答案。
########
# 类别定义 #
六个可能的类别如下:"BACKGROUND"(背景)、"MOTIVATION"(动机)、"USES"(使用)、"EXTENDS"(扩展)、"COMPARES_CONTRASTS"(比较或对比)、"FUTURE"(未来)。
类别定义:
1 - BACKGROUND:被引论文提供相关背景信息或属于文献体系的一部分。
2 - MOTIVATION:引用论文直接受到被引论文的启发。
3 - USES:引用论文使用了被引论文创建的方法或工具。
4 - EXTENDS:引用论文扩展了被引论文的方法、工具或数据等。
5 - COMPARES_CONTRASTS:引用论文表达与被引论文的相似性或差异性,或对其提出异议。
6 - FUTURE:被引论文可能是未来工作的潜在方向。
########
# 响应规则 #
- 仅分析带有@@CITATION@@标记的引文。
- 为每个引文分配一个类别。
- 仅响应以下类别之一:"BACKGROUND"、"MOTIVATION"、"USES"、"EXTENDS"、"COMPARES_CONTRASTS"、"FUTURE"。
- 不提供任何解释或说明。
"""
test_citing_sentence = "However , the method we are currently using in the ATIS domain ( @@CITATION@@ ) represents our most promising approach to this problem."
user_prompt = f"""
{test_citing_sentence}
### 问题:该引文最可能的意图是?
a) BACKGROUND
b) MOTIVATION
c) USES
d) EXTENDS
e) COMPARES_CONTRASTS
f) FUTURE
### 答案:
"""
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
关于系统提示和查询模板的详细信息可在论文中找到。
可能需要一个清理函数从输出中提取预测标签。您可以在GitHub上找到我们的实现。
引用
@misc{koloveas2025llmspredictcitationintent,
title={Can LLMs Predict Citation Intent? An Experimental Analysis of In-context Learning and Fine-tuning on Open LLMs},
author={Paris Koloveas and Serafeim Chatzopoulos and Thanasis Vergoulis and Christos Tryfonopoulos},
year={2025},
eprint={2502.14561},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2502.14561},
}