B

Bert Chunker Chinese 2

由 tim1900 开发
基于BertForTokenClassification构建的中文文本分块工具,特别适用于处理非结构化杂乱文本
下载量 41
发布时间 : 2/23/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个文本分块工具,通过预测文本块的起始标记来实现文档分割,采用滑动窗口技术处理任意长度文档,可作为semantic chunker的替代方案

模型特点

非结构化文本处理
相比传统分块工具,特别擅长处理非结构化杂乱文本
滑动窗口技术
采用滑动窗口技术,可处理任意长度的文档
实验性分块控制
提供实验性功能,支持设置每个文本块的最大令牌数

模型能力

中文文本分块
英文文本分块
非结构化文本处理
任意长度文档处理

使用案例

信息检索
RAG系统预处理
为检索增强生成(RAG)系统准备文本块
提高检索效率和准确性
文本处理
非结构化文档分割
对杂乱无章的文本进行结构化分割
使后续NLP任务更易处理