许可证:其他
许可证名称:gemma使用条款
许可证链接:https://ai.google.dev/gemma/terms
语言:
希伯来语-Gemma-11B-V2
这是对Hebrew-Gemma-11B的升级版本,训练时间更长并修复了一些错误。
基础模型:
指导模型:
Hebrew-Gemma-11B是一个开源的希伯来语/英语预训练生成文本大语言模型(LLM),拥有110亿参数,基于Google的Gemma-7B架构。
该模型是对gemma-7b的继续预训练,扩展至更大规模,并在30亿额外英语和希伯来语文本数据上进行了训练。
最终得到的Gemma-11B模型是一个功能强大的通用语言模型,适用于广泛的自然语言处理任务,尤其专注于希伯来语的理解和生成。
使用条款
作为Gemma-7B的扩展,本模型受Google原始许可证和使用条款约束。
Gemma-7B原始使用条款:条款
使用方法
以下是一些快速上手运行模型的代码片段。
首先确保执行pip install -U transformers
,然后根据您的使用场景复制对应代码段。
在CPU上运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2")
input_text = "你好!今天过得怎么样?"
input_ids = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
在GPU上运行
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2", device_map="auto")
input_text = "你好!今天过得怎么样?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))
以4位精度运行
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
tokenizer = AutoTokenizer.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2")
model = AutoModelForCausalLM.from_pretrained("yam-peleg/Hebrew-Gemma-11B-V2", quantization_config = BitsAndBytesConfig(load_in_4bit=True))
input_text = "你好!今天过得怎么样?"
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0])
基准测试结果
注意事项
Hebrew-Gemma-11B-V2是一个预训练的基础模型,因此不包含任何内容审核机制。
作者
- 训练者:Yam Peleg
- 合作者:Jonathan Rouach 和 Arjeo公司