这是一个专门针对职位名称匹配和相似度训练的sentence-transformers模型,基于all-mpnet-base-v2微调,训练数据包含大量职位名称及其相关技能/要求。
下载量 8,001
发布时间 : 12/21/2024
模型介绍
内容详情
替代品
模型简介
该模型将职位名称和描述映射到1024维稠密向量空间,可用于语义职位名称匹配、职位相似度搜索等HR/招聘相关任务。
模型特点
职位名称语义匹配
专门针对职位名称和技能描述进行优化,能够准确计算不同职位名称之间的语义相似度
大规模训练数据
基于550万+职位名称对进行训练,覆盖广泛的职业领域
高效向量表示
将文本映射到1024维稠密向量空间,便于相似度计算和检索
模型能力
职位名称相似度计算
职位技能匹配
语义搜索
特征提取
使用案例
人力资源与招聘
职位名称标准化
将不同公司使用的不同职位名称映射到标准化职位分类
提高职位数据的一致性和可比性
职位推荐系统
基于职位名称和描述的语义相似度为求职者推荐相关职位
提升职位匹配准确度
人才流动分析
分析不同职位之间的相似度,为员工职业发展路径规划提供依据
优化人才管理策略
基础模型: sentence-transformers/all-mpnet-base-v2
库名称: sentence-transformers
管道标签: 句子相似度
标签:
- sentence-transformers
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:5579240
- 损失函数:缓存多负例排序损失
小部件示例:
-
源句: 注册护士项目协调员
对比句:- 讨论医疗用户的病史/全科循证实践/应用各类搬运技术/制定每日优先级/时间管理/展示专业素养/耐受久坐/批判性思考/提供专业护理服务/参加会议/代表工会成员/护理科学/管理跨学科患者护理团队/实施护理计划/客户服务/在监督下开展护理工作/保持培训内容更新/循证护理/操作搬运设备/遵守生物医学伦理准则/协调护理服务/提供医疗学习支持
- 撰写文字内容/准备可视化数据/设计计算机网络/进行数据可视化展示/沟通交流/操作关系型数据库管理系统/ICT通信协议/文档管理/使用线程技术/搜索引擎/计算机科学/分析网络带宽需求/分析网络配置与性能/制定架构方案/进行ICT代码审查/硬件架构/计算机工程/电子游戏功能/执行网络搜索/使用数据库/使用在线协作工具
- 护理科学/安排预约/医疗环境行政事务/静脉输液/制定护理计划/准备静脉注射包/与护理人员协作/督导护理人员/临床灌注
-
源句: 联邦业务发展与招投标管理总监
对比句:- 制定商业计划/促进公司增长/发展个人技能/渠道营销/编制财务预测/开展市场调研/识别新商机/市场研究/维护客户关系/管理政府资金/达成销售目标/建立商业关系/拓展供应商网络/决策/确保客户满意度/参与制定营销策略/分析商业计划/分析性思考/制定创收策略/医疗法规/协调业务发展工作/承担责任/解决问题/提交商业研究提案/识别企业潜在市场
- 操作仓储物料/仓库设施货物运输/组织社会工作包/协调多供应商订单/仓储运营/流水线团队作业/物流团队作业/鞋类材料
- 制造工厂设备/使用手动工具/组装硬件部件/使用传统工具箱工具/执行产品测试/控制面板组件/进行预装配质量检查/监督设备运行/组装机电单元/安排设备维修/组装机器/构建机器/解决设备故障/机电工程/制定组装说明/安装液压系统/修订质量控制体系文件/检测产品缺陷/操作液压机械控制装置/展现组织领导力/组装制造管道部件/托盘类型/处理日常办公事务/符合生产要求/遵守医疗实践质量标准
-
源句: 生产总监
对比句:- 使用客户关系管理软件/销售策略/制定项目规范/记录项目进展/参加贸易展会/楼宇自动化/销售部门流程/独立工作/制定客户策略/建立商业关系/协助投标流程/完成拍卖销售/满足技术要求/结果导向管理/达成销售目标/管理销售团队/联络专业承包商开展油井作业/销售活动/使用销售预测软件/确保客户满意度/将建筑需求融入设计方案/积极参与公民生活/客户关系管理/实施销售策略
- 战略落地执行/主导品牌战略规划/协助开展营销活动/实施销售策略/促销技巧/与招聘机构谈判/进行市场调研/客户沟通/制定媒体策略/改造配电系统/饮料产品/项目管理/提供广告样品/设计军事战术/使用微软Office/市场分析/管理销售团队/制定品牌指南/品牌营销技巧/使用销售预测软件/监督品牌管理/分析包装需求/撰写文字内容/分发产品样品/渠道营销
- 使用微软Office/脚本编程/培养团队精神/运营游戏/生产流程/制定项目规范/分析生产流程改进/管理生产企业/敏捷开发/应用基础编程技能/记录项目进展/监督游戏运营/通过训练提升运动竞技水平/安排会议/办公软件/优化生产工作流/团队管理/设定生产KPI/管理商业风险/团队协作/团队合作原则/应对已识别风险/按时交付/咨询生产总监
-
源句: 护理助理
对比句:- 督导实习医生/观察医疗用户/提供生活护理/准备健康档案/为接受治疗的患者摆位/与各类性格人群共事/监督医疗膳食/照料老年人/监测患者生命体征/转运患者/展现同理心/为残疾人士提供居家支持/医疗环境卫生管理/监督保洁工作/执行清洁任务/监测患者健康状况/提供基础患者护理/与护理人员协作/让服务使用者及照护者参与护理计划/使用电子健康记录系统/安排患者居家服务/在社区环境中提供护理服务/轮班工作/督导护理人员
- 维护利益相关方关系/使用微软Office/记录财务交易/软件组件供应商/软件配置管理工具/注重细节/费用跟踪/建立商业关系/开具销售发票/财务部门流程/供应商管理/处理付款/执行档案管理/管理标准企业资源规划系统
- 检查产品质量/应用HACCP体系/测试包装/遵循口头指示/实验室设备/协助制作实验文档/确保包装质量控制/制定食品安全计划/包装工程/危险品合规包装/维护实验室设备/SAP数据服务/校准实验室设备/分析包装需求/英文写作
-
源句: 分行经理
对比句:- 支持残障人士就业能力/排班/发放许可证/融资方式/维护信函记录/计算机设备/资金发放决策/操作归档机/使用微软Office/搬运成摞文件/运输办公设备/接待特殊需求客人/撰写文字内容/外交政策制定/提供慈善服务/慈善事业/维护财务记录/按时交付/管理募捐活动/协助残障人士参与社区活动/资助项目报告/准备合规文件/管理资助申请/耐受久坐/遵守工作日程
- 烘焙糕点/研发新食谱/餐饮服务运营/评估食品保质期/遵守食品饮料生产要求/食品浪费监控系统/保持工作区域清洁/符合食品安全卫生标准/协调餐饮服务/保持店面清洁/按食谱操作/健康安全卫生法规/安装制冷设备/准备甜点/精确测量食品加工操作/符合生产要求/有条理地工作/要求表演者精益求精/制冷剂/注重细节/确保食品质量/预制餐生产
- 团队合作原则/行政办公/职责委派/开设银行账户/管理警报系统/独立运营决策/使用微软Office/提供金融服务/确保文档管理规范/自我管理能力/使用电子表格软件/管理现金流/整合社区外展/时间管理/多任务处理/执行计算/评估客户信用度/维护客户服务/团队建设/文档数字化/推广金融产品/沟通交流/协助客户/遵循警报处理流程/办公设备
基于sentence-transformers/all-mpnet-base-v2的SentenceTransformer模型
这是一个专为职位名称匹配和相似度计算优化的sentence-transformers模型。该模型基于sentence-transformers/all-mpnet-base-v2微调,训练数据包含大量职位名称及其相关技能/要求。模型将职位名称和描述映射到1024维稠密向量空间,可用于语义职位匹配、职位相似度搜索等HR/招聘相关任务。
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: sentence-transformers/all-mpnet-base-v2
- 最大序列长度: 64个token
- 输出维度: 1024维
- 相似度函数: 余弦相似度
- 训练数据集: 550万+职位名称对
- 主要用途: 职位名称匹配与相似度计算
- 性能指标: 在TalentCLEF基准测试中达到0.6457 MAP值
模型架构
完整模型架构描述:
SentenceTransformer(
(0): Transformer({'max_seq_length': 64, 'do_lower_case': False}) with Transformer model: MPNetModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Asym(
(anchor-0): Dense({'in_features': 768, 'out_features': 1024, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
(positive-0): Dense({'in_features': 768, 'out_features': 1024, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
)
)
使用方式
直接使用(Sentence Transformers)
首先安装必要包:
pip install -U sentence-transformers
加载和使用模型:
import torch
import numpy as np
from tqdm.auto import tqdm
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import batch_to_device, cos_sim
# 加载模型
model = SentenceTransformer("TechWolf/JobBERT-v2")
def encode_batch(jobbert_model, texts):
features = jobbert_model.tokenize(texts)
features = batch_to_device(features, jobbert_model.device)
features["text_keys"] = ["anchor"]
with torch.no_grad():
out_features = jobbert_model.forward(features)
return out_features["sentence_embedding"].cpu().numpy()
def encode(jobbert_model, texts, batch_size: int = 8):
# 按文本长度排序并保留原始索引
sorted_indices = np.argsort([len(text) for text in texts])
sorted_texts = [texts[i] for i in sorted_indices]
embeddings = []
# 分批编码
for i in tqdm(range(0, len(sorted_texts), batch_size)):
batch = sorted_texts[i:i+batch_size]
embeddings.append(encode_batch(jobbert_model, batch))
# 合并嵌入向量并还原原始顺序
sorted_embeddings = np.concatenate(embeddings)
original_order = np.argsort(sorted_indices)
return sorted_embeddings[original_order]
# 使用示例
job_titles = [
'软件工程师',
'高级软件开发师',
'产品经理',
'数据科学家'
]
# 获取嵌入向量
embeddings = encode(model, job_titles)
# 计算余弦相似度矩阵
similarities = cos_sim(embeddings, embeddings)
print(similarities)
输出结果为相似度矩阵,每个值代表两个职位名称之间的余弦相似度:
tensor([[1.0000, 0.8723, 0.4821, 0.5447],
[0.8723, 1.0000, 0.4822, 0.5019],
[0.4821, 0.4822, 1.0000, 0.4328],
[0.5447, 0.5019, 0.4328, 1.0000]])
结果说明:
- 对角线值为1.0000(与自身完全相似)
- "软件工程师"与"高级软件开发师"相似度高(0.8723)
- "产品经理"与其他职位相似度较低
- 所有值范围在0到1之间,值越大表示相似度越高
典型应用场景
- 职位名称标准化:识别相似职位名称进行标准化处理
- 职位搜索:基于名称相似度为求职者匹配相关岗位
- HR分析:分析组织内职位名称模式与相似度
- 人才管理:识别相似岗位用于职业发展与继任规划
训练详情
训练数据
生成器
- 数据集:550万+职位名称对
- 格式:锚点职位名称与相关技能配对
- 训练目标:学习职位名称与其相关技能之间的语义相似度
- 损失函数:采用余弦相似度的缓存多负例排序损失
训练超参数
- 批量大小:2048
- 学习率:5e-05
- 训练轮次:1
- FP16训练:启用
- 优化器:AdamW
框架版本
- Python:3.9.19
- Sentence Transformers:3.1.0
- Transformers:4.44.2
- PyTorch:2.4.1+cu118
- Accelerate:0.34.2
- Datasets:3.0.0
- Tokenizers:0.19.1
引用文献
BibTeX格式
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文