turkish - deepseek开源语言模型 - 支持土耳其语文本处理与交流应用

首页

Turkish Deepseek

由 alibayram 开发

基于DeepSeek架构，在土耳其语文本上训练的语言模型，包含多头潜在注意力(MLA)和专家混合(MoE)技术。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #土耳其语生成 #稀疏专家混合 #潜在注意力压缩

下载量 106

发布时间 : 5/30/2025

模型简介

一个针对土耳其语优化的语言模型，采用先进的MLA和MoE技术，适用于土耳其语文本生成任务。

模型特点

多头潜在注意力(MLA)

采用压缩键值表示(秩为256)，结合独立的无位置和位置编码组件，实现长序列的高效内存使用

专家混合(MoE)

包含4个路由专家和2个共享专家，每个词元激活2个专家，通过稀疏激活减少计算量

优化的土耳其语处理

专门针对土耳其语训练，使用土耳其语维基百科数据，词汇表针对土耳其语优化

YaRN缩放的旋转位置编码

支持频率缩放的旋转位置嵌入，能够扩展超出训练长度的上下文

模型能力

土耳其语文本生成

长序列处理

高效内存使用

使用案例

文本生成

土耳其语内容创作

生成土耳其语文章、故事或其他创意内容

土耳其语对话系统

构建土耳其语聊天机器人或对话助手

教育

土耳其语学习辅助

帮助学习者练习土耳其语写作和语法

🚀 土耳其DeepSeek模型

该模型是一个基于DeepSeek架构，在土耳其语文本上训练的语言模型。它包含了多头潜在注意力（Multi-head Latent Attention，MLA）和专家混合（Mixture of Experts，MoE）技术。

✨ 主要特性

参数数量：约1.92亿
词汇表：50,256个词元
上下文长度：256个词元
语言：土耳其语（tr）
架构：采用MLA + MoE的DeepSeek架构

🔧 技术细节

隐藏维度：1024
层数：6层（1层密集层 + 5层MoE层）
注意力头：8个
MoE专家：4个路由专家 + 2个共享专家
活跃专家：每个词元2个

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载模型和分词器
model = AutoModelForCausalLM.from_pretrained("your-username/turkish-deepseek", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("your-username/turkish-deepseek")

# 文本生成
prompt = "Merhaba dünya"
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=50,
        temperature=0.7,
        do_sample=True,
        pad_token_id=tokenizer.pad_token_id
    )

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)

原实现用法

# 使用原实现
import torch
import sentencepiece as spm

# 加载分词器
tokenizer = spm.SentencePieceProcessor()
tokenizer.load("tokenizer.model")

# 加载模型检查点
checkpoint = torch.load("pytorch_model.bin", map_location="cpu")

# 使用原模型类加载
# from your_original_implementation import Transformer, ModelArgs
# model = Transformer(args)
# model.load_state_dict(checkpoint)

📚 详细文档

训练数据

来源：土耳其语维基百科
分词方式：SentencePiece字节对编码（BPE）
词汇表：针对土耳其语进行了优化

模型架构

多头潜在注意力（Multi-head Latent Attention，MLA）

压缩键值表示（秩为256）
独立的无位置和位置编码组件
长序列的高效内存使用

专家混合（Mixture of Experts，MoE）

前2路由和负载均衡
常见模式的共享专家
稀疏激活减少计算量

带YaRN缩放的旋转位置编码（RoPE with YaRN Scaling）

频率缩放的旋转位置嵌入
超出训练长度的扩展上下文支持
基础频率：10000.0

性能

推理：针对土耳其语文本生成进行了优化
内存：MLA减少了键值缓存大小
速度：MoE通过可控计算实现更大容量

局限性

主要在土耳其语维基百科上训练（领域覆盖有限）
上下文长度限制为256个词元
可能表现出训练数据中存在的偏差

引用

如果使用此模型，请进行引用：

@misc{turkish-deepseek,
  title={Turkish DeepSeek Language Model},
  author={Your Name},
  year={2024},
  url={https://huggingface.co/your-username/turkish-deepseek}
}