C

Chonky Modernbert Base 1

由 mirth 开发
Chonky是一款能智能将文本分割成有意义语义块的Transformer模型,可用于RAG系统。
下载量 221
发布时间 : 4/14/2025
模型介绍
内容详情
替代品

模型简介

该模型处理文本并将其划分为语义连贯的片段,这些分块可作为RAG流程的一部分输入到基于嵌入的检索系统或语言模型中。

模型特点

语义分块
能够智能地将文本分割成有意义的语义块,保持语义连贯性
长序列支持
基于ModernBERT架构,原生支持最长8192的序列长度
RAG优化
专为RAG(检索增强生成)系统设计,优化了分块质量

模型能力

文本分割
语义分析
段落划分

使用案例

信息检索
RAG系统预处理
为检索增强生成系统准备语义连贯的文本块
提高检索效率和相关性
文本处理
文档分块
将长文档分割成有意义的段落
便于后续处理和分析