许可证: mit
语言:
- 韩语
- 英语
指标:
- 困惑度
- 准确率
任务标签: 文本生成
标签:
- llama
- KoLLAMA
- KoreanGPT
🚧 注意: 本仓库正在建设中 🚧
待办事项
✅ - 已完成
⏳ - 正在进行中
- ✅ 训练新的BBPE分词器
- ✅ 在TPUv4 Pods上测试训练代码(使用模型并行)
- ✅ 转换测试(从JAX到PyTorch)
- ✅ 在最小数据集上进行语言模型训练验证(1个句子,1000步)
- ⏳ 构建数据混洗器(课程学习)
- ⏳ 训练7B模型
- ⏳ 训练13B模型
- ⏳ 训练33B模型
- 训练65B模型
KoLLaMA模型卡片
KoLLaMA(33B)是基于韩语/英语/代码数据集,通过JAX使用LLaMA架构训练的模型,并得到了Google TPU研究云计划的部分计算资源支持。
模型详情
研究人员
Junbum Lee(又名Beomi)
模型日期
KoLLaMA的训练时间为2023年4月起~
模型版本
这是模型的alpha版本。
模型类型
LLaMA是一个基于Transformer架构的自回归语言模型。模型有不同规模:7B、13B、33B和65B参数。
(本仓库包含33B模型!)
论文或更多信息
更多信息请参阅论文《LLaMA, Open and Efficient Foundation Language Models》,可在https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/找到。
引用详情
KoLLAMA: [待定]
LLAMA: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
许可证
MIT
反馈渠道
关于KoLLaMA的问题或意见可通过项目的GitHub仓库提交issue。
预期用途
主要用途
KoLLaMA的主要用途是研究韩语开源大语言模型。
主要用户
模型的主要用户是自然语言处理、机器学习和人工智能领域的研究人员。
非适用范围
LLaMA是一个基础模型。因此,在没有进一步风险评估和缓解措施的情况下,不应将其用于下游应用。特别是,我们的模型未经过人类反馈训练,可能会生成有毒或冒犯性内容、错误信息或一般无用的回答。
影响因素
相关因素
影响模型性能的最相关因素之一是使用的语言。尽管我们在训练数据中包含了20种语言,但大部分数据集由英语文本组成,因此我们预计模型在英语上的表现优于其他语言。相关研究表明,不同方言的性能可能有所不同,我们预计我们的模型也会如此。
评估数据集
[待定]
训练数据集
[待定]
伦理考量
数据
用于训练模型的数据来自多个来源,主要是网络。因此,它包含冒犯性、有害和有偏见的内容。我们预计模型会表现出训练数据中的这些偏见。
人类生活
该模型不应用于影响人类生活核心问题的决策,也不应以此方式使用。
风险和危害
大语言模型的风险和危害包括生成有害、冒犯性或偏见内容。这些模型常常容易生成错误信息,有时称为幻觉。我们预计我们的模型在这方面也不例外。
使用案例
LLaMA是一个基础模型,因此,在没有进一步调查和风险缓解措施的情况下,不应将其用于下游应用。这些风险和潜在问题包括但不限于:生成错误信息和有害、偏见或冒犯性内容。