模型简介
模型特点
模型能力
使用案例
base_model: liuhaotian/llava-v1.5-13b inference: false license: llama2 model_creator: Haotian Liu model_name: Llava v1.5 13B model_type: llama prompt_template: '{prompt}
' quantized_by: TheBloke

TheBloke的LLM工作得到了安德森·霍洛维茨(a16z)的慷慨资助
Llava v1.5 13B - AWQ
- 模型创建者:Haotian Liu
- 原始模型:Llava v1.5 13B
描述
此仓库包含Haotian Liu的Llava v1.5 13B的AWQ模型文件。
关于AWQ
AWQ是一种高效、准确且极速的低比特权重量化方法,目前支持4位量化。与GPTQ相比,它提供了基于Transformers的更快速推理。
它还支持连续批处理服务器vLLM,允许在多用户服务器场景中使用Llama AWQ模型进行高吞吐量的并发推理。
截至2023年9月25日,初步的仅Llama AWQ支持也已添加到Huggingface文本生成推理(TGI)中。
请注意,在撰写本文时,总体吞吐量仍低于使用未量化模型运行vLLM或TGI,但使用AWQ可以启用更小的GPU,从而更容易部署并节省总体成本。例如,70B模型可以在1个48GB GPU上运行,而不是2个80GB GPU。
可用仓库
提示模板:llava 1.5
用户与人工智能助手之间的对话。助手对用户的问题提供有用、详细且有礼貌的回答。
用户: <图像>{prompt}
助手:
提供的文件和AWQ参数
对于我的第一个AWQ模型发布,我仅发布128g模型。如果有兴趣,我会考虑添加32g模型,并且一旦我完成了困惑度和评估比较,但目前32g模型仍未完全通过AutoAWQ和vLLM测试。
模型以分片的安全张量文件形式发布。
分支 | 位数 | GS | AWQ数据集 | 序列长度 | 大小 |
---|---|---|---|---|---|
main | 4 | 128 | wikitext | 4096 | 7.25 GB |
从vLLM服务此模型
安装和使用vLLM的文档可以在这里找到。
注意:在撰写本文时,vLLM尚未发布支持AWQ的新版本。
如果您尝试下面的vLLM示例并收到关于quantization
未被识别的错误或其他与AWQ相关的问题,请从Github源代码安装vLLM。
- 当使用vLLM作为服务器时,传递
--quantization awq
参数,例如:
python3 python -m vllm.entrypoints.api_server --model TheBloke/llava-v1.5-13B-AWQ --quantization awq --dtype half
当从Python代码中使用vLLM时,传递quantization=awq
参数,例如:
from vllm import LLM, SamplingParams
prompts = [
"你好,我的名字是",
"美国总统是",
"法国的首都是",
"AI的未来是",
]
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="TheBloke/llava-v1.5-13B-AWQ", quantization="awq", dtype="half")
outputs = llm.generate(prompts, sampling_params)
# 打印输出。
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"提示: {prompt!r}, 生成文本: {generated_text!r}")
从文本生成推理(TGI)服务此模型
使用TGI版本1.1.0或更高版本。官方Docker容器是:ghcr.io/huggingface/text-generation-inference:1.1.0
示例Docker参数:
--model-id TheBloke/llava-v1.5-13B-AWQ --port 3000 --quantize awq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
与TGI交互的Python代码示例(需要huggingface-hub 0.17.0或更高版本):
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "告诉我关于AI"
prompt_template=f'''{prompt}
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"模型输出: {response}")
如何从Python代码中使用此AWQ模型
安装必要的包
需要:AutoAWQ 0.1.1或更高版本
pip3 install autoawq
如果使用预构建的轮子安装AutoAWQ时遇到问题,请从源代码安装:
pip3 uninstall -y autoawq
git clone https://github.com/casper-hansen/AutoAWQ
cd AutoAWQ
pip3 install .
然后可以尝试以下示例代码
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_name_or_path = "TheBloke/llava-v1.5-13B-AWQ"
# 加载模型
model = AutoAWQForCausalLM.from_quantized(model_name_or_path, fuse_layers=True,
trust_remote_code=False, safetensors=True)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=False)
prompt = "告诉我关于AI"
prompt_template=f'''{prompt}
'''
print("\n\n*** 生成:")
tokens = tokenizer(
prompt_template,
return_tensors='pt'
).input_ids.cuda()
# 生成输出
generation_output = model.generate(
tokens,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
max_new_tokens=512
)
print("输出: ", tokenizer.decode(generation_output[0]))
"""
# 未来应该也可以通过transformers pipeline进行推理
# 但目前AutoAWQ尚未支持(截至2023年9月25日)
from transformers import pipeline
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
"""
兼容性
提供的文件经过测试可与以下工具兼容:
TGI于2023年9月25日合并了AWQ支持:TGI PR #1054。使用:latest
Docker容器,直到下一个TGI版本发布。
Discord
如需进一步支持以及关于这些模型和AI的讨论,请加入:
感谢和如何贡献
感谢chirper.ai团队!
感谢Clay来自gpus.llm-utils.org!
很多人问我是否可以贡献。我喜欢提供模型和帮助人们,并希望能够花更多时间做这些事情,以及扩展到新的项目,如微调/训练。
如果您能够并愿意贡献,这将是最感激的,并将帮助我继续提供更多模型,并开始新的AI项目。
捐助者将获得任何和所有AI/LLM/模型问题的优先支持,访问私人Discord房间以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Pierre Kircher, Stanislav Ovsiannikov, Michael Levine, Eugene Pentland, Andrey, 준교 김, Randy H, Fred von Graf, Artur Olbinski, Caitlyn Gatomon, terasurfer, Jeff Scroggin, James Bentley, Vadim, Gabriel Puliatti, Harry Royden McLaughlin, Sean Connelly, Dan Guido, Edmond Seymore, Alicia Loh, subjectnull, AzureBlack, Manuel Alberto Morcote, Thomas Belote, Lone Striker, Chris Smitley, Vitor Caleffi, Johann-Peter Hartmann, Clay Pascal, biorpg, Brandon Frisco, sidney chen, transmissions 11, Pedro Madruga, jinyuan sun, Ajan Kanaga, Emad Mostaque, Trenton Dambrowitz, Jonathan Leane, Iucharbius, usrbinkat, vamX, George Stoitzev, Luke Pendergrass, theTransient, Olakabola, Swaroop Kallakuri, Cap'n Zoog, Brandon Phillips, Michael Dempsey, Nikolai Manek, danny, Matthew Berman, Gabriel Tamborski, alfie_i, Raymond Fosdick, Tom X Nguyen, Raven Klaugh, LangChain4j, Magnesian, Illia Dulskyi, David Ziegler, Mano Prime, Luis Javier Navarrete Lozano, Erik Bjäreholt, 阿明, Nathan Dryer, Alex, Rainer Wilmers, zynix, TL, Joseph William Delisle, John Villwock, Nathan LeClaire, Willem Michiel, Joguhyik, GodLy, OG, Alps Aficionado, Jeffrey Morgan, ReadyPlayerEmma, Tiffany J. Kim, Sebastain Graf, Spencer Kim, Michael Davis, webtim, Talal Aujan, knownsqashed, John Detwiler, Imad Khwaja, Deo Leter, Jerry Meng, Elijah Stavena, Rooh Singh, Pieter, SuperWojo, Alexandros Triantafyllidis, Stephen Murray, Ai Maven, ya boyyy, Enrico Ros, Ken Nordquist, Deep Realms, Nicholas, Spiking Neurons AB, Elle, Will Dee, Jack West, RoA, Luke @flexchar, Viktor Bowallius, Derek Yates, Subspace Studios, jjj, Toran Billups, Asp the Wyvern, Fen Risland, Ilya, NimbleBox.ai, Chadd, Nitin Borwankar, Emre, Mandus, Leonard Tan, Kalila, K, Trailburnt, S_X, Cory Kujawski
感谢所有慷慨的赞助者和捐助者!
再次感谢a16z的慷慨资助。
原始模型卡片:Haotian Liu的Llava v1.5 13B
LLaVA模型卡片
模型详情
模型类型: LLaVA是一个开源聊天机器人,通过微调LLaMA/Vicuna在GPT生成的多模态指令跟随数据上进行训练。 它是一个基于transformer架构的自回归语言模型。
模型日期: LLaVA-v1.5-13B于2023年9月训练。
论文或更多信息的资源: https://llava-vl.github.io/
许可证
Llama 2根据LLAMA 2社区许可证授权, 版权所有(c) Meta Platforms, Inc. 保留所有权利。
关于模型的问题或评论发送至: https://github.com/haotian-liu/LLaVA/issues
预期用途
主要预期用途: LLaVA的主要用途是研究大型多模态模型和聊天机器人。
主要预期用户: 模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
训练数据集
- 来自LAION/CC/SBU的558K过滤图像-文本对,由BLIP标注。
- 158K GPT生成的多模态指令跟随数据。
- 450K学术任务导向的VQA数据混合。
- 40K ShareGPT数据。
评估数据集
12个基准测试的集合,包括5个学术VQA基准测试和7个专门为指令跟随LMM提出的最新基准测试。









