许可证:其他
许可证名称:gemma使用条款
许可证链接:https://ai.google.dev/gemma/terms
语言:
希伯来语-Gemma-11B
基础模型:
指导模型:
希伯来语-Gemma-11B是一个开源的大语言模型(LLM),基于谷歌的Gemma-7B架构,拥有110亿参数,专为希伯来语/英语生成文本预训练。
该模型在gemma-7b的基础上继续预训练,扩展至更大规模,并额外训练了30亿个英语和希伯来语文本数据标记。
最终得到的Gemma-11B模型是一款功能强大的通用语言模型,适用于广泛的自然语言处理任务,尤其擅长希伯来语的理解和生成。
使用条款
作为Gemma-7B的扩展,本模型受谷歌原始许可证和使用条款约束。
Gemma-7B原始使用条款:条款
使用方法
以下是一些快速上手运行模型的代码片段。
首先确保执行pip install -U transformers
,然后根据您的使用场景复制对应代码段。
在CPU上运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Gemma-11B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Gemma-11B")
input_text = "你好!今天过得怎么样?"
input_ids = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
在GPU上运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Gemma-11B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Gemma-11B", device_map="auto")
input_text = "你好!今天过得怎么样?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
以4位精度运行
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Gemma-11B")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Gemma-11B", quantization_config = BitsAndBytesConfig(load_in_4bit=True))
input_text = "你好!今天过得怎么样?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0])
基准测试结果
注意事项
希伯来语-Gemma-11B是一个预训练的基础模型,因此不包含任何内容审核机制。
作者
- 训练者:Yam Peleg
- 合作者:Jonathan Rouach 和 Arjeo公司