SyllaBERTa开源模型 - 免费处理古希腊语文本的高效利器

首页

Syllaberta

由 Ericu950 开发

SyllaBERTa是一款实验性基于Transformer的掩码语言模型，专为处理古希腊语文本设计，采用音节级分词。

大型语言模型

Transformers

其他#音节级分词 #古希腊语处理 #韵律分析

下载量 19

发布时间 : 4/25/2025

模型简介

该模型特别适用于处理涉及韵律、格律和押韵的任务，基于RoBERTa架构进行自定义配置。

模型特点

音节级分词

采用音节而非单词或字符进行分词，特别适合处理古希腊语的韵律和格律特征。

自定义分词器

支持双元音合并及希腊语正字法现象，能正确处理古希腊语文本的音节分割。

专业领域优化

专为古典文学研究设计，在涉及韵律分析的任务中表现优异。

模型能力

古希腊语文本理解

掩码语言建模

音节级文本生成

韵律分析

使用案例

古典文学研究

韵律分析

分析古希腊诗歌的韵律结构

能准确识别音节模式并预测缺失音节

文本修复

修复古代文献中的缺失或损坏部分

基于上下文预测最可能的音节序列

语言学教育

语言学习辅助

帮助学生理解古希腊语的音节结构

提供音节级分解和预测

🚀 SyllaBERTa：用于古希腊语的基于音节的RoBERTa模型

SyllaBERTa 是一个基于Transformer架构的实验性掩码语言模型（MLM），它在古希腊语文本上进行训练，并且以音节为单位进行分词。该模型专门用于处理涉及韵律、格律和押韵的任务。

✨ 主要特性

基于Transformer架构的掩码语言模型，在古希腊语文本上训练。
以音节为单位进行分词，而非传统的单词或字符。
能够处理韵律、格律和押韵相关的任务。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("Ericu950/SyllaBERTa", trust_remote_code=True)
model = AutoModelForMaskedLM.from_pretrained("Ericu950/SyllaBERTa", trust_remote_code=True)

# Encode a sentence
text = "Κατέβην χθὲς εἰς Πειραιᾶ μετὰ Γλαύκωνος τοῦ Ἀρίστωνος"
tokens = tokenizer.tokenize(text)
print(tokens)

# Insert a mask at random
import random
tokens[random.randint(0, len(tokens)-1)] = tokenizer.mask_token
masked_text = tokenizer.convert_tokens_to_string(tokens)

# Predict masked token
inputs = tokenizer(masked_text, return_tensors="pt", padding=True, truncation=True)
inputs.pop("token_type_ids", None)
with torch.no_grad():
    outputs = model(**inputs)

# Fetch prediction
logits = outputs.logits
mask_token_index = (inputs['input_ids'] == tokenizer.mask_token_id).nonzero(as_tuple=True)[1]
top_tokens = logits[0, mask_token_index].topk(5, dim=-1).indices.squeeze(0)
predicted = tokenizer.convert_ids_to_tokens(top_tokens.tolist())

print("Top predictions:", predicted)

运行上述代码，应该会输出以下内容：

Original tokens: ['κα', 'τέ', 'βην', 'χθὲ', 'σεἰσ', 'πει', 'ραι', 'ᾶ', 'με', 'τὰγ', 'λαύ', 'κω', 'νοσ', 'τοῦ', 'ἀ', 'ρίσ', 'τω', 'νοσ']

Masked at position 6
Masked text: κα τέ βην χθὲ σεἰσ πει [MASK] ᾶ με τὰγ λαύ κω νοσ τοῦ ἀ ρίσ τω νοσ

Top 5 predictions for masked token:
ραι          (score: 23.12)
ρα           (score: 14.69)
ραισ         (score: 12.63)
σαι          (score: 12.43)
ρη           (score: 12.26)

📚 详细文档

模型概述

属性	详情
基础架构	RoBERTa（自定义配置）
词汇表大小	42,042个音节标记
隐藏层大小	768
层数	12
注意力头数量	12
中间层大小	3,072
最大序列长度	514
预训练目标	掩码语言建模（MLM）
优化器	AdamW
损失函数	交叉熵，标记掩码概率为15%