许可协议:apache-2.0
数据集:
- IlyaGusev/gazeta
语言:
- 俄语
任务标签:文本摘要
标签:
- 文本摘要
- 摘要生成器
- 俄语文本摘要器
- 文本生成推理
示例窗口:
- 文本:>
83岁的哈巴罗夫斯克边疆区居民在沼泽中站了一整天,通过咆哮吓退了一只在她周围徘徊的熊。据塔斯社援引志愿搜救队的消息来源报道。事件发生在8月5日,当时退休女士的亲属向执法部门求助。据称,她当天早上从西塔村进入森林采蘑菇后失踪。当地居民、搜救队员、猎人和巡逻警察参与了搜索。他们多次发现熊的踪迹、栖息地,并听到附近有掠食者游荡。直到8月7日才找到这位老人。"夜间在森林中,距离熊的栖息地几米处发现了一个装满蘑菇的桶,搜救人员听到了不似动物的咆哮声,并在溪流峡谷中看到了老奶奶。她用咆哮试图吓退守候的熊,"搜救队代表描述道。当救援人员将这位滨海边疆区居民从沼泽中解救出来时,附近仍有熊徘徊——直到接应车辆抵达才将其吓跑。老人被送往地区医院,医生怀疑其颅骨受伤并转送至哈巴罗夫斯克医疗机构,但诊断未获确认。院方表示,受害者因强烈应激反应导致嗜睡加剧(据Life.ru报道)。老人事后回忆,她在森林采蘑菇时陷入溪流淤泥,突然有熊靠近,于是通过大声吼叫驱赶野兽。此前7月24日卡累利阿也发生熊袭人事件:一只幼熊闯入"泉水"园艺别墅区,屋主试图抚摸时,母熊从林中冲出咬伤其前臂。伤者经手术后情况稳定(据《科斯托穆克沙新闻》报道)。当地居民反映熊患长期困扰多个区域,例如白海城频现熊踪——工厂、堤岸、商店及港口均有目击,海岸监控还拍到一头熊的影像。8月3日更有居民称在食品店门口遭遇熊。"当局该采取行动了,孩子们晚上11点还在外面,而饥饿的熊四处游荡。"
示例标题:摘要示例2
库名称:transformers
评估指标:
该俄语文本摘要器基于ai-forever/ruT5-base模型微调,训练数据集约6万条样本。
使用示例:
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
model_name = "sarahai/ruT5-base-summarizer"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
device = torch.device("cpu")
input_text = "太阳系可能即将因天体重新分类而发生变化。科学家认为矮行星数量或将增加——这类天体常引发天文学界争议。根据国际天文联合会标准,成为矮行星需满足四个条件:绕太阳运行且非卫星;轨道周边已清除其他天体;质量足以维持流体静力平衡(呈近似球形)。目前公认的矮行星包括冥王星、阋神星、鸟神星、妊神星和谷神星。最新观测表明,小行星带第四大天体健神星也应归为此类。智利甚大望远镜的观测显示,直径430公里的健神星呈近乎完美的球形(自转周期13.8小时),且表面仅有两个微小陨石坑,与其所在星族形成时的剧烈碰撞(20亿年前直径75-150公里天体撞击)形成鲜明对比。数值模拟表明,这次撞击使健神星破碎后通过引力重组为球形。此外,土星新发现20颗卫星使其总数达82颗,超越木星成为太阳系卫星最多的行星(通过斯巴鲁望远镜2004-2007年数据结合新算法发现)。"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to(device)
outputs = model.generate(input_ids, max_length=100, min_length=50, length_penalty=2.0, num_beams=4, early_stopping=True)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)
参考文献:
Hugging Face模型中心
T5论文
免责声明:模型性能受微调数据质量及代表性影响,建议用户根据具体应用场景评估适用性。