L

Lsg Legal Small Uncased 4096

由 ccdv 开发
基于LEGAL-BERT的小型版本,采用局部+稀疏+全局注意力机制(LSG)高效处理长序列
下载量 1,088
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

该模型是LEGAL-BERT的小型版本,专门优化用于处理长序列法律文本,采用创新的局部+稀疏+全局注意力机制(LSG),在速度和性能上优于传统长序列处理模型如Longformer或BigBird。

模型特点

高效长序列处理
采用LSG注意力机制,可高效处理长达4096个令牌的序列,性能优于传统长序列模型
灵活配置
支持调整全局令牌数、块大小、稀疏因子等多种参数以适应不同任务需求
多种稀疏模式
提供6种稀疏选择类型(bos_pooling/norm/pooling/lsh/stride/block_stride)适应不同场景
自适应填充
自动填充不足块大小的序列,建议配合分词器截断和填充功能使用

模型能力

长文本处理
法律文本分析
填充掩码预测
序列分类

使用案例

法律文本处理
法律文档分类
对长篇幅法律文档进行自动分类
可处理长达4096个令牌的文档序列
法律术语预测
预测法律文本中的缺失术语
示例显示能准确预测'capital'和'happiness'等术语
通用NLP任务
长文本分类
处理需要长上下文理解的分类任务
模型输出包含分类logits