库名称: transformers
流水线标签: 文本生成
许可证: 其他
许可证名称: llama3
许可证链接: LICENSE
支持语言:
- 韩语
- 英语
标签:
- meta
- llama
- llama-3
- akallama
库名称: transformers
推理支持: 不支持
AKALLAMA
AkaLlama是一系列专为多任务实际应用设计的韩语大模型。初始版本AkaLlama-v0.1是基于Meta-Llama-3-70b-Instruct微调的模型,训练数据来自MIR实验室精选的公开数据集混合。我们的目标是探索高性能大语言模型在特定场景(如韩语等语言或组织专用聊天机器人领域)的经济适用方案。
详情请访问项目主页。
模型描述
这是托管在Hub上的GGUF格式模型卡。
关于GGUF
GGUF是llama.cpp团队于2023年8月21日推出的新格式,用于替代已停止支持的GGML格式。
以下是部分支持GGUF的客户端和库:
使用指南
本仓库提供AkaLlama-70B-v0.1的gguf权重文件。
通过llama.cpp.python使用
from llama_cpp import Llama
llm = Llama(
model_path="./AkaLlama-llama3-70b-v0.1.Q4_K_M.gguf",
n_ctx=8192,
n_threads=8,
n_gpu_layers=81
)
output = llm(
"""<|begin_of_text|><|start_header_id|>system<|end_header_id|>
你是延世大学多模态实验室(MIR lab)开发的大语言模型AkaLlama。
请遵循以下准则:
1. 用户未特别要求时始终使用韩语交流
2. 禁止包含有害/非伦理/歧视/危险/违法内容
3. 对不合逻辑的问题需解释原因而非直接回答
4. 在安全伦理范围内提供全面回答<|eot_id|><|start_header_id|>user<|end_header_id|>
{prompt}<|eot_id|><|start_header_id|>assistant<|end_header_id|>
""",
max_tokens=512,
stop=["<|eot_id|>", "<|end_of_text|>"],
echo=True
)
llm = Llama(model_path="./AkaLlama-llama3-70b-v0.1.Q4_K_M.gguf", chat_format="llama-3")
llm.create_chat_completion(
messages = [
{"role": "system", "content": """(同上系统提示)"""},
{
"role": "user",
"content": "你叫什么名字?"
}
]
)
兼容性
这些GGUFv2量化文件兼容2023年8月27日后的llama.cpp(commit d0cee0d起),同时支持README顶部列出的第三方工具。
量化方法说明
点击查看详情
新支持的量化方法:
- GGML_TYPE_Q2_K - "type-1" 2比特量化,超级块含16个块(每块16权重),块缩放和最小值用4比特表示,等效每权重2.5625比特
- GGML_TYPE_Q3_K - "type-0" 3比特量化,超级块含16个块(每块16权重),缩放值用6比特表示,等效每权重3.4375比特
- GGML_TYPE_Q4_K - "type-1" 4比特量化,超级块含8个块(每块32权重),等效每权重4.5比特
- GGML_TYPE_Q5_K - "type-1" 5比特量化,结构同Q4_K,等效每权重5.5比特
- GGML_TYPE_Q6_K - "type-0" 6比特量化,超级块含16个块(每块16权重),缩放值用8比特表示,等效每权重6.5625比特
文件列表
文件名 |
量化方法 |
比特数 |
大小 |
最大内存需求 |
适用场景 |
Q2_K |
Q2_K |
2 |
26.4 GB |
28.9 GB |
最小体积,质量损失显著 - 非推荐 |
Q3_K_S |
Q3_K_S |
3 |
30.9 GB |
33.4 GB |
极小体积,高质量损失 |
Q4_K_M |
Q4_K_M |
4 |
42.5 GB |
45.0 GB |
平衡质量 - 推荐 |
Q5_K_M |
Q5_K_M |
5 |
50.0 GB |
52.5 GB |
极低质量损失 - 推荐 |
注: 内存需求假设未启用GPU卸载。若启用GPU加速将减少内存占用并增加显存使用。
Q6_K和Q8_0文件需合并
由于HuggingFace不支持50GB以上文件,这些量化文件已分卷存储:
q6_K
需下载:
AkaLlama-llama3-70b-v0.1.Q6_K.00001-of-00002.gguf
AkaLlama-llama3-70b-v0.1.Q6_K.00002-of-00002.gguf
合并命令:
cat AkaLlama-llama3-70b-v0.1.Q6_K.*-of-00002.gguf > AkaLlama-llama3-70b-v0.1.Q6_K.gguf
Windows用户使用COPY /B
命令合并。
评估结果
模型 |
参数量 |
量化 |
LogicKor* |
Q4版本 |
70B |
4bit |
6.56 |
Q8版本 |
70B |
8bit |
6.34 |
*3次随机种子均值
训练详情
训练流程
采用Odds Ratio Preference Optimization (ORPO)偏好学习对齐算法,训练流程与HuggingFaceH4/zephyr-orpo-141b-A35b-v0.1基本一致。详见Huggingface的alignment handbook。
训练数据
训练数据细节将后续公布。
示例演示
基础问答
用户:你能做什么?
模型:我是AI语言模型AkaLlama,能生成多样化文本、回答问题、进行对话和创意写作,也可按指定主题编辑内容。
数学解题
用户:将5打铅笔和45块橡皮平分给学生,最多可分几人?
模型:
1. 铅笔总数:5打=60支 → 可分60人
2. 橡皮总数:45块 → 可分45人
3. 最大公约数(GCD)为15
结论:每位学生分得4支铅笔+3块橡皮,最多可分15人
文学分析
用户:解读尹东柱《数星星的夜》的时代背景
模型:
该诗创作于1941年日据时期,通过星空意象表达民族认同:
- "刻入星星"象征文化记忆的保存
- "母亲在北方"暗示离散之痛
- "名字埋入土"反映身份压抑
- "春草萌发"寄托复兴希望
更多示例见项目主页
风险提示
尽管AKALlama-70B具有潜力,但其响应可能存在不准确/偏见/错位风险,需经充分测试方可使用。模型输出质量高度依赖系统提示和解码策略,不当设置可能导致质量下降。
引用
@misc{akallama,
author = {郑智元等},
title = {AkaLlama:延世大学大语言模型项目},
year = {2024},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/mirlab/AkaLlama-llama3-70b-v0.1}},
}
联系方式
欢迎反馈与合作!
核心成员
特别致谢
声明