DictaLM-2.0开源文本生成模型 - 免费支持希伯来语内容创作优化

首页

Dictalm2.0

由 dicta-il 开发

DictaLM-2.0是一个70亿参数的预训练生成文本模型，专为希伯来语优化，基于Mistral-7B架构改进

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #希伯来语优化 #多语言生成 #低标记压缩率

下载量 24.86k

发布时间 : 4/10/2024

模型简介

专为希伯来语优化的生成式大语言模型，通过扩展分词器和双语训练增强希伯来语处理能力

模型特点

希伯来语专用分词器

新增1000个希伯来语标记，压缩率从5.78标记/词提升至2.76标记/词

双语预训练

在1900亿标记数据上训练（50%希伯来语+50%英语）

量化支持

提供4比特量化的GPTQ和AWQ版本，降低硬件需求

模型能力

希伯来语文本生成

英语文本生成

时态转换

语言理解

使用案例

语言学习

动词时态转换

自动完成希伯来语动词的时态转换

示例中展示了过去时与将来时的准确转换

内容生成

希伯来语内容创作

生成符合希伯来语文法的各类文本内容

🚀 适配大语言模型到希伯来语：揭秘 DictaLM 2.0，增强词汇和指令能力

DictaLM-2.0 大语言模型（LLM）是一个预训练的生成式文本模型，拥有 70 亿参数，专门针对希伯来语文本进行训练。

如需了解该模型的完整详情，请阅读我们的发布博客文章或技术报告。

这是全精度的基础模型。您可以在此查看和访问 DictaLM-2.0 的基础/指令、未量化/量化版本的完整集合。

🚀 快速开始

DictaLM-2.0 大语言模型（LLM）是一个预训练的生成式文本模型，专门针对希伯来语文本进行训练。

✨ 主要特性

专业训练：针对希伯来语文本进行专门训练，拥有 70 亿参数。
多种版本：提供基础/指令、未量化/量化等多种版本。
架构优化：基于 Mistral-7B-v0.1 模型，扩展分词器并继续预训练。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

基础用法

from transformers import pipeline
import torch

# This loads the model onto the GPU in bfloat16 precision
model = pipeline('text-generation', 'dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda')

# Sample few shot examples
prompt = """
עבר: הלכתי
עתיד: אלך

עבר: שמרתי
עתיד: אשמור

עבר: שמעתי
עתיד: אשמע

עבר: הבנתי
עתיד:
"""

print(model(prompt.strip(), do_sample=False, max_new_tokens=8, stop_sequence='\n'))
# [{'generated_text': 'עבר: הלכתי\nעתיד: אלך\n\nעבר: שמרתי\nעתיד: אשמור\n\nעבר: שמעתי\nעתיד: אשמע\n\nעבר: הבנתי\nעתיד: אבין\n\n'}]

高级用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained('dicta-il/dictalm2.0', torch_dtype=torch.bfloat16, device_map='cuda', load_in_4bit=True)
tokenizer = AutoTokenizer.from_pretrained('dicta-il/dictalm2.0')

prompt = """
עבר: הלכתי
עתיד: אלך

עבר: שמרתי
עתיד: אשמור

עבר: שמעתי
עתיד: אשמע

עבר: הבנתי
עתיד:
"""

encoded = tokenizer(prompt.strip(), return_tensors='pt').to(model.device)
print(tokenizer.batch_decode(model.generate(**encoded, do_sample=False, max_new_tokens=4)))
# ['<s> עבר: הלכתי\nעתיד: אלך\n\nעבר: שמרתי\nעתיד: אשמור\n\nעבר: שמעתי\nעתיד: אשמע\n\nעבר: הבנתי\nעתיד: אבין\n\n']

📚 详细文档

如需了解该模型的完整详情，请阅读我们的发布博客文章或技术报告。

🔧 技术细节

DictaLM-2.0 基于 Mistral-7B-v0.1 模型，进行了以下改进：

扩展分词器：注入 1000 个专门针对希伯来语的标记，将压缩率从 5.78 标记/单词提高到 2.76 标记/单词。
继续预训练：在超过 1900 亿个自然文本标记上继续预训练，其中 50% 为希伯来语，50% 为英语。

📄 许可证

本模型采用 Apache-2.0 许可证。

⚠️ 重要提示

DictaLM 2.0 是一个预训练的基础模型，因此没有任何审核机制。

📖 引用

如果您使用此模型，请引用：

@misc{shmidman2024adaptingllmshebrewunveiling,
      title={Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities}, 
      author={Shaltiel Shmidman and Avi Shmidman and Amir DN Cohen and Moshe Koppel},
      year={2024},
      eprint={2407.07080},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2407.07080}, 
}