这是一个基于sentence-transformers/all-MiniLM-L6-v2微调的句子转换器模型,用于将文本映射到384维向量空间,支持语义相似度计算等任务。
下载量 49
发布时间 : 1/25/2025
模型介绍
内容详情
替代品
模型简介
该模型专门用于句子和段落的向量化表示,可应用于语义文本相似度、语义搜索、文本分类和聚类等多种自然语言处理任务。
模型特点
高效语义编码
将句子和段落高效编码为384维稠密向量,保留语义信息
医学领域优化
针对医学文本进行了专门优化,能更好处理专业医学术语
多重损失函数
采用俄罗斯套娃损失和多重负样本排序损失的组合训练方式
模型能力
语义文本相似度计算
语义搜索
复述挖掘
文本分类
文本聚类
使用案例
医学研究
临床试验文档匹配
匹配相似临床试验描述,辅助研究设计
医学文献检索
基于语义的医学文献检索系统
生物医药
药物研究文档分析
分析药物研究文档的相似性
标签:
- 句子转换器
- 句子相似度
- 特征提取
- 训练生成
- 数据集大小:92934
- 损失函数:俄罗斯套娃损失
- 损失函数:多重负样本排序损失 基础模型: sentence-transformers/all-MiniLM-L6-v2 微件示例:
- 源句: 阿瑞匹坦预防化疗引起的恶心呕吐CINV0869130完整研究。本研究旨在评估注射用重组人组织纤溶酶原激酶衍生物与阿替普酶治疗4.5小时内急性缺血性卒中患者的疗效和安全性。
对比句:
- 冠状动脉疾病|多支冠状动脉病变|心脏病|心血管疾病入选标准1患者1处狭窄血管造影目测确定新发病变50%D3主要心外膜区域LAD和/或分支CX和/或分支RCA和/或分支供应存活心肌左主干受累2患者右冠状动脉发育不良无后降支存在LAD CX区域病变纳入试验3VD等效3血管直径≥1.5mm通过诊断性血管造影目测评估4患者慢性稳定型心绞痛或稳定急性冠脉综合征入选标准SYNTAX研究...
- HIV感染入选标准20-20理想体重身高估计骨架大小健康状况良好无临床显著异常体检结果及病史实验室检查排除标准有临床显著疾病史有临床显著过敏史包括药物过敏入组前3个月内参与过临床试验HIV感染乙肝丙肝病毒感染活动性显著感染既往暴露于PRO 140过敏已知对PRO 140过敏60天内安全性耐受性数据...
- 化疗所致恶心呕吐入选标准患者初次接受中高度致吐化疗组织学/细胞学确诊恶性肿瘤计划接受单次中高度致吐化疗研究第1天Karnofsky评分≥60排除标准计划接受顺铂治疗患者在化疗开始前6天内接受过腹部盆腔放疗对研究药物止吐药过敏正在服用CYP3A4底物禁用药物有重大医学精神疾病实验室异常值血小板绝对中性粒细胞计数AST ALT胆红素肌酐报告呕吐患者数总体阶段周期1 0-120小时报告完全缓解患者数...
- 源句: 甲磺酸艾立布林IV期临床试验韩国转移性局部晚期乳腺癌患者。本研究将治疗既往治疗后进展的转移性去势抵抗性前列腺癌患者。这是该药物首次在患者中进行测试,有助于了解药物治疗可能出现的不良反应类型。同时将测量体内药物浓度并初步评估其作为单药的抗癌活性。
对比句:
- 终末期肾病入选标准ESRD患者年龄18-80岁临床稳定由治疗医师判断入组前30天通过相关病史体检实验室检查证实接受血液透析治疗HDF入组前3个月排除标准无法提供知情同意有重大精神障碍或智力残疾影响知情同意能力妊娠哺乳或计划妊娠血管通路不稳定导致体外血流速QB低且多变慢性肝病已知副蛋白相关疾病已知出血性疾病如胃肠道出血结肠息肉小肠血管发育不良活动性消化性溃疡大出血事件入组前12周接受过红细胞输血入组前4周有急性感染临床症状活动性癌症基底细胞鳞状细胞皮肤癌除外HIV肝炎血清学阳性计划在研究期间接受活体供体移植当前参与介入性临床研究过去3个月内参与过可能干扰研究的介入性临床研究λ游离轻链(λFLC)降低率第12周κ游离轻链(KFLC)降低率第12周几丁质酶3样蛋白1(YKL40)降低率第12周成纤维细胞生长因子23(FGF23)降低率第12周血清β2微球蛋白(β2M)降低率第12周...
- 皮肤松弛入选标准18-75岁男女受试者ASA身体状况分级I-II级主诉下眼睑区域皮肤松弛理解并接受研究治疗义务无研究者认为不可接受的身体状况有生育潜力女性需使用批准的避孕方法愿意配合方案要求包括研究要求的图像/照片评估/测量随访愿意签署照片使用权同意书能够通过视频/照片进行虚拟随访排除标准ASA分级III级及以上下眼睑区域12个月内接受过美容填充剂如透明质酸聚左旋乳酸钙羟基磷灰石等妊娠哺乳或计划妊娠对肿胀麻醉剂利多卡因肾上腺素过敏对布洛芬NSAID过敏治疗区域既往有手术史存在影响伤口愈合的全身或局部皮肤病研究者认为可能危及患者健康的未控制重大疾病自身免疫病史除桥本甲状腺炎外有瘢痕疙瘩倾向治疗区域存在癌前病变植入电子设备如起搏器过去一年有精神疾病住院史入组前30天内参与过其他研究...
- 乳腺肿瘤|乳腺癌入选标准1女性年龄≥20岁2组织学/细胞学确诊乳腺癌3局部晚期或转移性乳腺癌4既往接受过含蒽环类紫杉类的2种方案治疗局部复发和/或转移性疾病5对最近6个月内化疗证明难治6按RECIST v1.1标准有可评估病灶7骨髓功能充足ANC≥1.5×109/L血红蛋白≥100g/dL血小板≥100×109/L8肝功能充足总胆红素≤1.5倍正常上限肝转移时ALT AST≤5倍正常上限9肾功能充足肌酐≤2.0mg/dL Cockcroft-Gault公式计算肌酐清除率≥40ml/min10化疗放疗相关毒性恢复至≤1级脱发稳定感觉神经病变≤2级11ECOG评分0-212预期生存≥3个月13愿意配合研究方案14签署知情同意书排除标准1入组前1周内接受过化疗放疗生物免疫或激素治疗2肺淋巴管浸润导致肺功能不全需氧疗3脑硬膜下转移完成局部治疗停用皮质类固醇≥1周症状稳定4软脑膜癌病5显著心血管损害入组前1月心梗不稳定心绞痛III-IV级心衰心律失常QTcB>480ms先天性长QT综合征6未控制的严重并发感染需抗生素注射7入组前1周大手术8过去1年内有其他恶性肿瘤非黑色素瘤皮肤癌宫颈原位癌除外9已知HIV阳性10入组前4周接受过基因治疗或试验药物11对艾立布林活性成分或稀释剂过敏12参与注册研究13妊娠或可能妊娠哺乳期14不同意在研究期间避孕15筛选前4周参与过其他临床试验16研究者认为不适合入选...
- 源句: MT4666治疗阿尔茨海默病的安全性研究。这是一项随机、开放标签、单剂量、重复交叉的I期临床试验,旨在比较YH22162在健康男性志愿者中的安全性和药代动力学特征。假设:研究药物与对照药物表现出等效的药代动力学特性。
对比句:
- 阿尔茨海默病入选标准符合美国国家老龄化研究所-阿尔茨海默病协会诊断标准McKhann等2011MMSE评分14-24筛选时12-26基线时改良Hachinski缺血评分≤4有合适的照料者受试者居住在家中或无需24小时护理的机构排除标准其他原因导致的痴呆诊断根据DSM-IV-TR标准诊断重度抑郁症过去1年有精神病病史筛查前1月内心梗或不稳定心绞痛筛查前18个月有脑血管病史合并肝病或肾功能不全...
- 2型糖尿病入选标准1非妊娠男女28-65岁2确诊T2D≤3年3HbA1c 7.5%-9.5%4BMI 28-40kg/m25口服降糖药二甲双胍联合其他OAD剂量不超过标签最大量一半且12周内未换药6同意必要时使用其他降糖药如利拉鲁肽7同意献血8能遵守研究要求并签署知情同意9有生育潜力女性需避孕10非哺乳期排除标准11型糖尿病2糖尿病酮症酸中毒或高渗昏迷史3空腹C肽<1ng/ml提示胰岛素分泌衰竭4既往使用胰岛素(妊娠糖尿病除外)5当前使用GLP-1RA6当前使用格列本脲7低血糖 unawareness或1年内严重低血糖事件8已知自身免疫病如乳糜泻9既往胃部手术如Billroth II式10慢性或急性胰腺炎史11糖尿病性胃轻瘫12活动性肝炎或肝病13近7天急性胃肠道疾病14炎症性肠病15食管结构异常16胃结构异常17十二指肠溃疡或憩室18间歇性小肠梗阻症状19活动性Hp感染20凝血功能障碍21使用抗凝药22使用P2Y12抑制剂23不能停用NSAID24使用SSRI25使用全身性糖皮质激素26影响胃肠动力药物27减肥药28未控制的甲减29贫血30近3个月献血31影响红细胞更新的情况32人工关节33严重心血管疾病34中重度CKD35免疫功能低下36活动性感染37活动性恶性肿瘤38甲状腺髓样癌家族史39MEN2综合征40需手术麻醉者41药物滥用42吸烟43参与其他临床试验44研究者认为不适合的情况...
- 实体瘤入选标准1≥18岁2组织学/细胞学确诊非血液恶性肿瘤3ECOG 0-24骨髓肾功能充足ANC≥1500/mm3血小板≥100000/mm3血红蛋白≥90g/dL肌酐≤2.0mg/dL肝转移时ALT AST≤5倍正常上限胆红素≤1.5mg/dL5PTT≤1.5倍正常上限INR≤1.56有生育潜力者需避孕7能理解并签署同意书排除标准121天内接受过抗癌治疗221天内大手术3未经治疗的脑膜转移4中央型胸部肿瘤5妊娠哺乳期621天内使用CYP3A抑制剂7蛋白尿≥2+或24小时尿蛋白≥1g8未控制的高血压9未控制的临床情况10HIV阳性11使用葡萄柚制品12LVEF<50%...
- 源句: 评估Ortho Evra避孕贴片激素释放对健康女性影响的粘性覆盖层研究。这是一项随机、盲法、安慰剂和阳性对照、四周期、交叉设计的全面QT/QTc(TQT)研究,旨在评估奥拉布替尼对健康受试者心脏复极化的影响。
对比句:
- Alagille综合征入选标准1签署知情同意2临床和/或基因诊断ALGS312月龄-5岁体重≥5kg伴有临床显著胆汁淤积性瘙痒4有生育潜力女性需避孕5能获得ALGS临床试验治疗排除标准1非ALGS所致胆汁淤积性肝病2妊娠哺乳期3研究者认为可能影响研究的临床显著疾病4失代偿期肝硬化5可能干扰药物吸收的疾病...
- 近视|屈光不正入选标准能签署同意书最佳矫正视力≥20/25散光≤0.75D能佩戴研究用隐形眼镜排除标准禁忌佩戴隐形眼镜的眼部情况使用辅助溶液中重度眼部异常使用禁忌药物习惯性过夜佩戴角膜屈光手术史6个月内眼外伤单眼受试者对测试物品成分不耐受主观满意度评分...
- 健康志愿者入选标准签署同意书BMI 18-30kg/m2体重50-90kg手术绝育或使用非激素避孕血压90-140/60-90mmHg血红蛋白≥120g/dL排除标准30天内使用尼古丁或激素6个月内注射Depo-Provera有避孕禁忌病史入组时临床显著疾病NGMN血浆浓度药代动力学参数不良事件发生率约2个月...
- 源句: 开放标签试验评估SYM001治疗免疫性血小板减少性紫癜(ITP)的安全性和有效性。如果您严重的疫苗相关不良事件已录入CDC疫苗不良事件报告系统(VAERS),我们有兴趣招募您参与本研究以记录症状。主要目标:建立国家数据库收集美国新接种者疫苗相关严重不良事件/伤害数据,识别潜在因果关系和生物学机制。通过全基因组测序鉴定与疫苗引发心血管、神经、胃肠、肌肉骨骼和免疫症状相关的SNP。次要目标:建立疫苗不良事件分类标准,比较数据库与2017年3月21日后国家疫苗伤害赔偿计划官方数据。第三目标:建立FDA紧急使用授权疫苗临床试验受试者长期不良反应数据库。
对比句:
- 免疫性血小板减少性紫癜入选标准血小板≤30000/mm3孤立性ITP史RhD阳性既往治疗有反应排除标准提示其他原因的血小板减少如SLE抗磷脂抗体综合征HIV HCV Hp感染脾大骨髓异常活动性出血溶血性疾病脾切除妊娠不良事件发生率6周内血小板计数...
- 2型糖尿病入选标准完成双盲基础研究MK0431-006的女性继续避孕基线HbA1c变化空腹血糖变化...
- 多系统萎缩入选标准符合改良Gilman诊断标准症状出现≤4年有MSA特异性症状排除标准禁忌症参与过α-突触核蛋白免疫治疗52周UMARS评分变化SCoPA-AUT评分变化生存期CSF α-突触核蛋白水平TAK341血药浓度不良事件发生率抗药抗体...
管道标签: 句子相似度 库名称: sentence-transformers
基于sentence-transformers/all-MiniLM-L6-v2的SentenceTransformer模型
这是一个基于sentence-transformers/all-MiniLM-L6-v2微调的sentence-transformers模型。它将句子和段落映射到384维稠密向量空间,可用于语义文本相似度、语义搜索、复述挖掘、文本分类、聚类等任务。
模型详情
模型描述
- 模型类型: 句子转换器
- 基础模型: sentence-transformers/all-MiniLM-L6-v2
- 最大序列长度: 256个token
- 输出维度: 384维
- 相似度计算: 余弦相似度
模型架构
完整模型架构包含Transformer层、池化层和归一化层。
使用方式
直接使用(Sentence Transformers)
安装库后加载模型进行推理:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("模型ID")
sentences = ["示例句子1", "示例句子2"]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
训练详情
训练数据集
- 样本量: 92,934条
- 列: Text1和Text2
- 文本长度统计: Text1平均104词, Text2平均228词
损失函数
采用MatryoshkaLoss结合MultipleNegativesRankingLoss,设置不同维度权重。
训练超参数
- 批次大小: 16
- 学习率: 2e-5
- 训练轮次: 1
- 预热比例: 0.1
- 混合精度训练: True
训练日志
显示训练过程中损失值逐步下降,从2.156降至1.024。
引用
请引用Sentence-BERT、Matryoshka表示学习和智能回复相关论文。
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers

支持多种语言
J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入
英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers

英语
O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入
英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入
英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers

支持多种语言
G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers

其他
B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors
英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文