HeCross开源希伯来语交叉编码器模型 - 免费部署助力零样本分类任务

首页

Hecross

由 HeTree 开发

这是一个用于希伯来语的交叉编码器模型，支持零样本分类任务。

文本分类

Transformers

其他开源协议:Apache-2.0 #希伯来语处理 #零样本分类 #交叉编码器

下载量 22

发布时间 : 2/18/2024

模型简介

该模型主要用于希伯来语的文本处理任务，特别适用于零样本分类场景。它能够对文本进行分类，即使在没有特定类别训练数据的情况下。

模型特点

希伯来语支持

专门针对希伯来语文本优化的模型

零样本分类

无需特定类别的训练数据即可进行分类

交叉编码能力

能够同时编码两个文本并计算它们的相关性分数

模型能力

文本分类

使用案例

客户服务

自动工单分类

将客户咨询自动分类到不同部门

提高工单处理效率

内容管理

新闻分类

将希伯来语新闻自动分类到不同主题

提高内容组织效率

🚀 希伯来语交叉编码器模型

本模型可用于零样本分类任务，为希伯来语相关的文本处理提供了有效的解决方案，能帮助用户快速对文本进行分类和相关性判断。

🚀 快速开始

安装

本模型可通过sentence_transformers或transformers库进行使用，确保你已经安装了这些库：

pip install sentence-transformers transformers

✨ 主要特性

多库支持：既可以使用sentence_transformers库调用，也能直接通过transformers库使用。
零样本分类：支持零样本分类任务，无需大量标注数据即可对文本进行分类。

📦 安装指南

使用pip安装所需的库：

pip install sentence-transformers transformers

💻 使用示例

基础用法

from sentence_transformers import CrossEncoder
model = CrossEncoder('HeTree/HeCross')

# Scores (already after sigmoid)
scores = model.predict([('כמה אנשים חיים בברלין?', 'ברלין מונה 3,520,031 תושבים רשומים בשטח של 891.82 קמ"ר.'), 
                        ('כמה אנשים חיים בברלין?', 'העיר ניו יורק מפורסמת בזכות מוזיאון המטרופוליטן לאומנות.')])
print(scores)

高级用法

使用transformers库的AutoModel直接调用模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import numpy as np

# Function that applies sigmoid to a score
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

model = AutoModelForSequenceClassification.from_pretrained('HeTree/HeCross')
tokenizer = AutoTokenizer.from_pretrained('HeTree/HeCross')
features = tokenizer(['כמה אנשים חיים בברלין?', 'כמה אנשים חיים בברלין?'],
                     ['ברלין מונה 3,520,031 תושבים רשומים בשטח של 891.82 קמ"ר.', 'העיר ניו יורק מפורסמת בזכות מוזיאון המטרופוליטן לאומנות.'],
                     padding=True, truncation=True, return_tensors="pt")
model.eval()
with torch.no_grad():
    scores = sigmoid(model(**features).logits)
    print(scores)

零样本分类用法

from transformers import pipeline
classifier = pipeline("zero-shot-classification", model='HeTree/HeCross')
sent = "בשבוע שעבר שדרגתי את גרסת  הטלפון שלי ."
candidate_labels = ["נייד לשיחות", "אתר", "חיוב חשבון", "גישה לחשבון בנק"]
res = classifier(sent, candidate_labels)
print(res)

📚 详细文档

模型信息

属性	详情
模型类型	希伯来语交叉编码器模型
训练数据	HeTree/MevakerConcTree
管道标签	零样本分类

引用

如果你在研究中使用了HeCross模型，请引用 Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language。

@article{shalumov2024mevaker,
      title={Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language}, 
      author={Vitaly Shalumov and Harel Haskey and Yuval Solaz},
      year={2024},
      eprint={2403.09719},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}