🚀 GECKO:适用于英语、代码和韩语的生成式语言模型
GECKO是一款预训练语言模型,支持韩语、英语和代码处理。它基于特定架构训练,能与多种框架集成,在自然语言处理和代码生成等场景有广泛应用。
🚀 快速开始
GECKO是一个拥有70亿参数的仅解码器Transformer模型,在韩语、英语和代码数据上进行了预训练。它使用了2000亿个标记进行训练,并使用了数TB的韩语语料库。GECKO是一个开源模型,遵循Apache 2.0许可协议。如需了解更多关于该模型的详细信息,请阅读我们的技术报告。
✨ 主要特性
- 多语言支持:支持韩语、英语和代码处理。
- 易于集成:基于Llama架构,可轻松与支持Llama的其他框架集成。
📦 安装指南
使用该模型需要至少14GB的RAM,建议使用半精度(如float16或bfloat16)。
💻 使用示例
基础用法
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = 'kifai/GECKO-7B'
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto")
text = """이 HTML 코드가 어떤 기능을 하는지 설명하고, 그 설명을 영어로 제공해주세요.
\```html
<button onclick="alert('Welcome!')">Click Me</button>
\```
"""
inputs = tokenizer(text, return_tensors='pt')['input_ids'].to('cuda')
output = model.generate(inputs, max_new_tokens=512, repetition_penalty=1.2)
print(tokenizer.decode(output[0], skip_special_tokens=True))
📚 详细文档
模型详情
GECKO是一个使用Llama架构的生成式语言模型。因此,我们的模型可以轻松地与其他支持Llama的框架集成。
属性 |
详情 |
训练数据 |
公开可用的在线数据混合 |
参数数量 |
70亿 |
内容长度 |
8k |
GQA |
无 |
标记数量 |
2000亿 |
学习率 |
3.0 x 10⁻⁴ |
局限性
GECKO是一个生成式语言模型,存在一定风险。其测试主要在韩语环境下进行,未覆盖所有可能的场景。与所有大型语言模型一样,GECKO的输出无法提前预测,有时可能不准确、有偏差或存在其他问题。因此,开发者在部署模型之前,应进行安全测试并针对预期用途对模型进行微调。
📄 许可证
GECKO遵循Apache 2.0许可协议发布。
🔖 引用
@misc{oh2024gecko,
title={GECKO: Generative Language Model for English, Code and Korean},
author={Sungwoo Oh and Donggyu Kim},
year={2024},
eprint={2405.15640},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
🙏 致谢
本模型的训练得到了 TPU Research Cloud 项目的支持。
📞 联系我们
我们期待与您交流并开展合作: