许可协议: cc-by-nc-4.0
支持语言:
- 俄语
- 英语
基础模型:
- d0rj/rut5-base-summ
任务类型: 文本摘要
标签:
- 文本摘要
- 自然语言处理
- 文本摘要生成
- 机器学习
- 深度学习
- 变压器模型
- 人工智能
- 文本分析
- 序列到序列
- PyTorch
- TensorFlow
- 安全张量
- T5模型
库名称: transformers

俄语文本摘要模型 - LaciaSUM V1 (小型版)
本模型是基于d0rj/rut5-base-summ微调的自动文本摘要专用模型,专门针对俄语文本处理进行优化,并在包含原文与对应摘要的自定义CSV数据集上完成训练。
核心特性
- 功能目标:实现文本的抽象式自动摘要
- 基础架构:d0rj/rut5-base-summ
- 训练数据:包含"Text"(原文)和"Summarize"(摘要)两列的定制CSV文件
- 预处理:在分词前会为原文添加"summarize:"前缀,强化模型对摘要任务的注意力
训练参数
- 训练轮次:9
- 批次大小:每设备4条样本
- 预热步数:1000
- 启用FP16训练(需CUDA支持)
- 硬件配置:基于RTX 3070显卡训练(耗时约40分钟)
模型说明
本模型使用Hugging Face的Transformers库及Seq2SeqTrainer进行微调,训练流程包含:
自定义数据集:通过SummarizationDataset类读取CSV文件(确保正确编码与分隔符),清除列名多余空格,并对原文与目标摘要进行分词处理。
标记处理:将目标文本中的填充标记替换为-100以优化损失计算。
该模型适用于俄语文档、新闻稿件等各类文本的快速原型开发与实际摘要应用。
注:模型支持英语但未经过充分测试
使用示例
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
text = "现代技术对日常生活和工作流程产生重大影响。人工智能正在成为优化任务、开拓各领域新前景的重要工具。"
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("摘要:", summary)
摘要生成示例
俄语版
原文内容:
现代技术对日常生活和工作流程产生重大影响。
人工智能正在成为优化任务、开拓各领域新前景的重要工具。
生成摘要:
现代技术深刻影响着日常生活和工作流程,其中人工智能能优化任务并开拓新前景。
英语版
原文内容:
Modern technologies have a significant impact on our daily lives and work processes. Artificial intelligence
is becoming an important tool that helps optimize tasks and opens up new opportunities in various fields.
生成摘要:
现代技术深刻影响日常生活与工作流程,人工智能作为重要工具可优化任务并开拓新机遇。
由LaciaStudio | LaciaAI团队微调