library_name: setfit
tags:
- setfit
- sentence-transformers
- text-classification
- generated_from_setfit_trainer
base_model: sentence-transformers/all-MiniLM-L6-v2
metrics:
- accuracy
widget:
- text: 无需任何政府机构或监管部门的授权、批准或其他行动,也无需向其发出通知或提交文件,服务方即可适当执行和交付本协议及其作为一方签署的其他交易文件,并履行其在本协议项下及其作为服务方身份下的义务。
- text: 抵押代理人的所有权利和救济应是累积性的,可以单独或同时行使,由其自行选择,行使或执行任何一项此类权利或救济不应阻碍或成为行使或执行任何其他权利或救济的条件。
- text: 除本协议项下的转让外,卖方不得向任何其他人出售、质押、转让或转让,或在应收账款或其他转让财产或其任何权益上设定、产生、承担或允许存在任何留置权,卖方应保护买方和发行人对应收账款及其他转让财产的权利、所有权和利益,对抗所有通过或根据卖方提出索赔的第三方。
- text: 若发生控制权变更,合格员工应立即完全享有其根据本计划应得的福利。
- text: 若参与者的雇佣关系因第3(a)节所述情形终止,则参与者随后死亡时,根据第3(a)(i)、(ii)、(iii)或(vi)节应支付给参与者的所有未付金额(如有)应支付给参与者的受益人。
pipeline_tag: text-classification
inference: true
model-index:
- name: SetFit with sentence-transformers/all-MiniLM-L6-v2
results:
- task:
type: text-classification
name: Text Classification
dataset:
name: Unknown
type: unknown
split: test
metrics:
- type: accuracy
value: 0.9425
name: Accuracy
基于sentence-transformers/all-MiniLM-L6-v2的SetFit模型
这是一个可用于文本分类的SetFit模型。该SetFit模型使用sentence-transformers/all-MiniLM-L6-v2作为句子嵌入模型,分类头采用LogisticRegression实例。
模型通过高效的小样本学习技术训练,包括:
- 使用对比学习微调Sentence Transformer
- 使用微调后的Sentence Transformer提取特征训练分类头
模型详情
模型描述
模型来源
评估
评估指标
使用方式
直接推理
首先安装SetFit库:
pip install setfit
然后加载模型进行推理:
from setfit import SetFitModel
model = SetFitModel.from_pretrained("scholarly360/setfit-contracts-clauses")
preds = model("若发生控制权变更,合格员工应立即完全享有其根据本计划应得的福利。")
训练详情
训练集统计
训练集 |
最小词数 |
中位数词数 |
最大词数 |
词数统计 |
8 |
48.2975 |
87 |
训练超参数
- batch_size: (16, 16)
- num_epochs: (2, 2)
- max_steps: -1
- 采样策略: 过采样
- 编码器学习率: (2e-05, 1e-05)
- 分类头学习率: 0.01
- 损失函数: 余弦相似度损失
- 距离度量: 余弦距离
- 边界值: 0.25
- 端到端训练: False
- 使用混合精度: False
- 预热比例: 0.1
- 随机种子: 42
- 评估最大步数: -1
- 训练结束时加载最佳模型: True
框架版本
- Python: 3.10.12
- SetFit: 1.0.3
- Sentence Transformers: 2.7.0
- Transformers: 4.40.2
- PyTorch: 2.2.1+cu121
- Datasets: 2.19.1
- Tokenizers: 0.19.1
引用
BibTeX
@article{https://doi.org/10.48550/arxiv.2209.11055,
doi = {10.48550/ARXIV.2209.11055},
url = {https://arxiv.org/abs/2209.11055},
author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {无需提示的高效小样本学习},
publisher = {arXiv},
year = {2022},
copyright = {知识共享署名4.0国际许可协议}
}