PPACE-v1.0开源大语言模型 - 免费助力生物医学资助项目摘要自动分类

首页

Ppace V1.0

由 nlpie 开发

PPACE是一款80亿参数的大语言模型，专为生物医学资助项目摘要的自动分类而设计，支持世界卫生组织研究优先级分类。

大型语言模型

Transformers

开源协议:MIT #生物医学资金分类 #多标签分类 #LoRA微调

下载量 37

发布时间 : 4/25/2025

模型简介

该模型通过微调实现，专门用于根据世界卫生组织的研究优先级对生物医学资助项目的摘要进行自动分类，是GLOPID-R Pandemic PACT项目的组成部分。

模型特点

专业领域分类

专门针对生物医学研究项目，支持12个WHO研究优先级的精确分类

可解释性增强

通过生成分类依据提升模型决策的可解释性

高效微调

采用LoRA技术实现高效训练，在保持高性能的同时减少计算资源需求

模型能力

生物医学文本理解

多标签分类

分类依据生成

使用案例

科研资金管理

研究资金流向分析

自动分类生物医学研究项目，追踪特定疾病领域的研究资金分配

可快速生成各类疾病研究资金分布报告

公共卫生决策支持

研究优先级分析

识别具有暴发潜力疾病的研究缺口

为公共卫生应急准备提供数据支持

🚀 大流行PACT高级分类引擎（PPACE）

大流行PACT高级分类引擎（PPACE）是一个经过微调的80亿参数大语言模型（LLM），专为根据与世界卫生组织（WHO）一致的研究优先级，自动对资助的生物医学项目的研究摘要进行分类而设计。作为GLOPID - R大流行PACT项目的一部分开发，PPACE有助于跟踪和分析针对各种具有爆发潜力的疾病的研究资金和临床证据。

该模型利用了一个经过人类注释的数据集，并通过一个更大的大语言模型生成的理由进行了扩展。这些理由为所选标签提供了解释，增强了模型的可解释性和准确性。

🚀 快速开始

准备输入提示

def construct_input_prompt(title, abstract):
    categories = """我们有一个生物医学研究领域的项目，希望根据其相关的研究优先级对其进行分类。我们有12种可能的研究优先级，一个项目可以映射到其中一个或多个优先级。以下是对这12个类别及其涵盖的具体领域的说明。 

1. 病原体：自然史、传播和诊断：
    开发诊断工具，了解病原体的形态、基因组学和基因分型，研究免疫力，使用疾病模型，以及评估病原体的环境稳定性。

2. 动物和环境研究及疾病媒介研究：
    动物来源、传播途径、媒介生物学以及媒介控制策略。

3. 流行病学研究：
    研究疾病传播动态、易感性、控制措施的有效性，以及通过监测和报告进行疾病测绘。

4. 人类临床特征和管理：
    疾病严重程度的预后因素、疾病发病机制、支持性护理和管理、长期健康后果，以及疾病管理的临床试验。

5. 感染预防和控制：
    研究社区限制措施、屏障和个人防护装备（PPE）、医疗机构中的感染控制，以及人 - 动物界面的措施。

6. 治疗方法研究、开发和实施：
    治疗方法开发的临床前研究、治疗方法安全性和有效性的临床试验、预防性治疗的开发、治疗方法的物流和供应链管理、治疗方法的临床试验设计，以及与治疗给药相关的不良事件研究。

7. 疫苗研究、开发和实施：
    疫苗开发的临床前研究、疫苗安全性和有效性的临床试验、疫苗的物流和分发策略、疫苗设计和接种、疫苗的临床试验设计、与免疫接种相关的不良事件研究，以及疫苗诱导免疫的特征描述。

8. 为伦理问题提供信息的研究：
    研究设计中的伦理考虑、公共卫生措施中的伦理问题、伦理临床决策、伦理资源分配、伦理治理，以及健康社会决定因素中的伦理考虑。

9. 公共卫生、疾病控制和社区恢复力政策：
    公共卫生干预措施的方法、社区参与、沟通和信息疫情管理、疫苗/治疗犹豫，以及政策研究和干预措施。

10. 疾病、应对和控制措施的二次影响：
    间接健康影响、社会影响、经济影响，以及其他二次影响，如环境影响、粮食安全和基础设施。

11. 卫生系统研究：
    卫生服务提供、卫生筹资、获得药品和技术的途径、卫生信息系统、卫生领导和治理，以及卫生人力管理。

12. 能力建设：
    个人能力建设、机构能力加强、系统/环境组成部分，以及各级能力建设的跨领域活动。"""

    prompt = "根据研究分类指南，使用1到12的类别将以下项目分类到适当的主要研究优先级中。"
    prompt += f"\n\n{categories.strip()}\n\n项目信息:\n\n"
    prompt += f"### 标题:\n'''\n{title.strip()}\n'''\n\n### 摘要:\n'''\n{abstract.strip()}\n'''\n\n"
    prompt += "根据这些信息，确定该项目相关的研究类别。为您的选择提供清晰的解释。请按照以下格式分段回复:"
    prompt += "\n\n### 解释: ...\n\n### 类别: ..."
    
    return prompt

title = "灵长类免疫缺陷病毒的中和作用"
abstract = "在COVID - 19大流行紧急情况下，我们将重新利用项目团队在HIV研究中核心的现有检测方法、技术和专业知识，包括病毒学、结构生物学、疫苗开发和蛋白质生产技能，来研究SARS - CoV - 2。这些交互式研究工作将借鉴我们已有的方法，应该能够有效利用我们现有的美国国立卫生研究院（NIH）资助资源。我们注意到，在所有三个执行地点，对我们最初与HIV - 1疫苗研发相关目标的投入仍存在机构限制。这些目标将保持不变，但在我们开展新的SARS - CoV - 2项目期间，投入的精力将减少，因为由于COVID - 19大流行，这些新项目的机构限制较少。"

input_prompt = construct_input_prompt(title, abstract)

加载模型

model_id = "nlpie/ppace-v1.0"

tokenizer = ts.AutoTokenizer.from_pretrained(model_id)

tokenizer.padding_side = 'right'
tokenizer.pad_token = tokenizer.eos_token
tokenizer.add_eos_token = True
tokenizer.bos_token, tokenizer.eos_token

model = ts.AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16)

推理

def generateOutput(input):
  inputs = tokenizer(
  [
      tokenizer.decode(tokenizer.apply_chat_template([{"content": input, "role": "user"}]))
  ], return_tensors = "pt").to("cuda")

  output = model.generate(**inputs, max_new_tokens = 512, num_beams=4, eos_token_id=tokenizer("<|eot_id|>", add_special_tokens=False)["input_ids"][0])

  return tokenizer.decode(output[0])

output = generateOutput(input_prompt)

完整代码

def construct_input_prompt(title, abstract):
    categories = """我们有一个生物医学研究领域的项目，希望根据其相关的研究优先级对其进行分类。我们有12种可能的研究优先级，一个项目可以映射到其中一个或多个优先级。以下是对这12个类别及其涵盖的具体领域的说明。 

1. 病原体：自然史、传播和诊断：
    开发诊断工具，了解病原体的形态、基因组学和基因分型，研究免疫力，使用疾病模型，以及评估病原体的环境稳定性。

2. 动物和环境研究及疾病媒介研究：
    动物来源、传播途径、媒介生物学以及媒介控制策略。

3. 流行病学研究：
    研究疾病传播动态、易感性、控制措施的有效性，以及通过监测和报告进行疾病测绘。

4. 人类临床特征和管理：
    疾病严重程度的预后因素、疾病发病机制、支持性护理和管理、长期健康后果，以及疾病管理的临床试验。

5. 感染预防和控制：
    研究社区限制措施、屏障和个人防护装备（PPE）、医疗机构中的感染控制，以及人 - 动物界面的措施。

6. 治疗方法研究、开发和实施：
    治疗方法开发的临床前研究、治疗方法安全性和有效性的临床试验、预防性治疗的开发、治疗方法的物流和供应链管理、治疗方法的临床试验设计，以及与治疗给药相关的不良事件研究。

7. 疫苗研究、开发和实施：
    疫苗开发的临床前研究、疫苗安全性和有效性的临床试验、疫苗的物流和分发策略、疫苗设计和接种、疫苗的临床试验设计、与免疫接种相关的不良事件研究，以及疫苗诱导免疫的特征描述。

8. 为伦理问题提供信息的研究：
    研究设计中的伦理考虑、公共卫生措施中的伦理问题、伦理临床决策、伦理资源分配、伦理治理，以及健康社会决定因素中的伦理考虑。

9. 公共卫生、疾病控制和社区恢复力政策：
    公共卫生干预措施的方法、社区参与、沟通和信息疫情管理、疫苗/治疗犹豫，以及政策研究和干预措施。

10. 疾病、应对和控制措施的二次影响：
    间接健康影响、社会影响、经济影响，以及其他二次影响，如环境影响、粮食安全和基础设施。

11. 卫生系统研究：
    卫生服务提供、卫生筹资、获得药品和技术的途径、卫生信息系统、卫生领导和治理，以及卫生人力管理。

12. 能力建设：
    个人能力建设、机构能力加强、系统/环境组成部分，以及各级能力建设的跨领域活动。"""

    prompt = "根据研究分类指南，使用1到12的类别将以下项目分类到适当的主要研究优先级中。"
    prompt += f"\n\n{categories.strip()}\n\n项目信息:\n\n"
    prompt += f"### 标题:\n'''\n{title.strip()}\n'''\n\n### 摘要:\n'''\n{abstract.strip()}\n'''\n\n"
    prompt += "根据这些信息，确定该项目相关的研究类别。为您的选择提供清晰的解释。请按照以下格式分段回复:"
    prompt += "\n\n### 解释: ...\n\n### 类别: ..."
    
    return prompt

title = "灵长类免疫缺陷病毒的中和作用"
abstract = "在COVID - 19大流行紧急情况下，我们将重新利用项目团队在HIV研究中核心的现有检测方法、技术和专业知识，包括病毒学、结构生物学、疫苗开发和蛋白质生产技能，来研究SARS - CoV - 2。这些交互式研究工作将借鉴我们已有的方法，应该能够有效利用我们现有的美国国立卫生研究院（NIH）资助资源。我们注意到，在所有三个执行地点，对我们最初与HIV - 1疫苗研发相关目标的投入仍存在机构限制。这些目标将保持不变，但在我们开展新的SARS - CoV - 2项目期间，投入的精力将减少，因为由于COVID - 19大流行，这些新项目的机构限制较少。"

input_prompt = construct_input_prompt(title, abstract)

model_id = "nlpie/ppace-v1.0"

tokenizer = ts.AutoTokenizer.from_pretrained(model_id)

tokenizer.padding_side = 'right'
tokenizer.pad_token = tokenizer.eos_token
tokenizer.add_eos_token = True
tokenizer.bos_token, tokenizer.eos_token

model = ts.AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    attn_implementation="flash_attention_2",
    torch_dtype=torch.bfloat16)

def generateOutput(input):
  inputs = tokenizer(
  [
      tokenizer.decode(tokenizer.apply_chat_template([{"content": input, "role": "user"}]))
  ], return_tensors = "pt").to("cuda")

  output = model.generate(**inputs, max_new_tokens = 512, num_beams=4, eos_token_id=tokenizer("<|eot_id|>", add_special_tokens=False)["input_ids"][0])

  return tokenizer.decode(output[0])

output = generateOutput(input_prompt)

print(output)