Hiber-Multi-10B-Instruct开源多语言大模型 - 免费部署助力文本生成任务

首页

Hiber Multi 10B Instruct

由 Hibernates 开发

Hiber-Multi-10B-Instruct 是一个基于 Transformer 架构的先进多语言大模型，支持多种语言，具有100亿参数，适用于文本生成任务。

大型语言模型

Transformers

支持多种语言#多语言混合推理 #闪电注意力优化 #长文本生成

下载量 86

发布时间 : 2/14/2025

模型简介

Hiber-Multi-10B-Instruct 是一个多语言混合模型，基于 Llama3.1 架构，经过指令微调，支持多种语言，适用于文本生成推理任务。

模型特点

多语言支持

支持8种主要语言，包括英文、中文、西班牙文等，适用于多语言文本生成任务。

高效推理

采用闪电注意力2.0优化和量化技术，显著提升推理速度和效率。

先进架构

基于Llama3.1架构，采用SwiGLU激活函数和RMSNorm层归一化，提升模型性能。

指令微调

经过指令微调，能够更好地理解和执行用户指令。

模型能力

多语言文本生成

指令理解与执行

长文本生成

批量推理

使用案例

多语言应用

多语言客服助手

用于多语言客服场景，自动生成高质量的客服回复。

多语言内容创作

支持多种语言的内容创作，如文章撰写、翻译等。

教育

语言学习助手

辅助语言学习者进行多语言练习和对话生成。

🚀 Hiber-Multi-10B-Instruct

这是一款基于先进变压器架构构建的多语言语言模型，具备强大的文本生成能力，可处理多种语言的指令任务，为多语言场景下的应用提供了高效解决方案。

✨ 主要特性

多语言支持：支持英语、中文、西班牙语、法语、德语、日语、韩语和俄语等多种语言。
先进架构：基于先进的变压器架构，拥有高效的注意力机制和创新的架构设计。
高性能表现：在内存使用、吞吐量和延迟等方面表现出色。

📦 安装指南

文档未提供具体安装步骤，此部分跳过。

💻 使用示例

基础用法

from dataclasses import dataclass
from typing import Optional, List, Dict, Union
import torch
import torch.nn.functional as F
from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer

@dataclass
class GenerationConfig:
    temperature: float = 0.7
    top_p: float = 0.9
    top_k: int = 50
    repetition_penalty: float = 1.1
    max_new_tokens: int = 512
    do_sample: bool = True
    num_beams: int = 1

class HiberMultiPipeline:
    def __init__(
        self,
        model_name: str = "Hiber-Multi-10B-Instruct",
        device_map: str = "auto",
        torch_dtype: Optional[torch.dtype] = torch.bfloat16,
        load_in_8bit: bool = False,
        load_in_4bit: bool = False,
    ):
        self.config = AutoConfig.from_pretrained(model_name)
        self.tokenizer = AutoTokenizer.from_pretrained(
            model_name,
            padding_side="left",
            truncation_side="left",
        )
        
        quantization_config = None
        if load_in_8bit or load_in_4bit:
            from transformers import BitsAndBytesConfig
            quantization_config = BitsAndBytesConfig(
                load_in_8bit=load_in_8bit,
                load_in_4bit=load_in_4bit,
                bnb_4bit_compute_dtype=torch.bfloat16,
                bnb_4bit_quant_type="nf4",
            )

        self.model = AutoModelForCausalLM.from_pretrained(
            model_name,
            device_map=device_map,
            torch_dtype=torch_dtype,
            quantization_config=quantization_config,
            trust_remote_code=True,
        )
        
    def generate(
        self,
        messages: List[Dict[str, str]],
        generation_config: Optional[GenerationConfig] = None,
    ) -> str:
        if generation_config is None:
            generation_config = GenerationConfig()
            
        prompt = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )
        
        inputs = self.tokenizer(
            prompt,
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=self.config.max_position_embeddings,
        ).to(self.model.device)
        
        with torch.inference_mode():
            outputs = self.model.generate(
                **inputs,
                pad_token_id=self.tokenizer.pad_token_id,
                bos_token_id=self.tokenizer.bos_token_id,
                eos_token_id=self.tokenizer.eos_token_id,
                **asdict(generation_config),
            )
            
        response = self.tokenizer.decode(
            outputs[0][inputs["input_ids"].shape[1]:],
            skip_special_tokens=True,
        )
        return response.strip()

    @torch.inference_mode()
    def batch_generate(
        self,
        batch_messages: List[List[Dict[str, str]]],
        generation_config: Optional[GenerationConfig] = None,
        batch_size: int = 8,
    ) -> List[str]:
        responses = []
        for i in range(0, len(batch_messages), batch_size):
            batch = batch_messages[i:i + batch_size]
            responses.extend([
                self.generate(msgs, generation_config)
                for msgs in batch
            ])
        return responses

高级用法

文档未提供高级用法示例，此部分跳过。

📚 详细文档

架构概述

基于先进变压器架构构建的最先进多语言语言模型：

MODEL_SPECS = {
    "architecture": "Decoder-only Transformer",
    "params": "10B",
    "context_length": 4096,
    "hidden_size": 4096,
    "attention_heads": 32,
    "kv_heads": 8,
    "intermediate_size": 14336,
    "num_layers": 48,
    "vocab_size": 32000,
    "position_encoding": "Rotary",
    "activation": "SwiGLU",
    "norm_type": "RMSNorm"
}

关键组件

先进的注意力机制
- 32头多查询注意力
- 分组查询注意力（8个KV头）
- Flash Attention 2.0优化
- 长序列滑动窗口注意力
架构创新
- SwiGLU激活函数
- RMSNorm层归一化
- 旋转位置嵌入（RoPE）
- 自适应KV缓存
- 专家混合路由

性能特征

内存使用

FP16：20GB显存
INT8：12GB显存
INT4：8GB显存

吞吐量（A100 GPU）

批量大小1：32个令牌/秒
批量大小8：180个令牌/秒
批量大小32：420个令牌/秒

延迟（毫秒）

LATENCY_PROFILE = {
    "first_token": 42,
    "token_throughput": {
        "batch_1": 31.25,
        "batch_8": 5.56,
        "batch_32": 2.38
    },
    "context_scaling": {
        "1024_tokens": 1.0,
        "2048_tokens": 1.2,
        "4096_tokens": 1.8
    }
}

系统要求

最低配置

CUDA 11.8+
PyTorch 2.0+
16GB显存（INT8）
64GB内存
AVX2支持

🔧 技术细节

文档未提供具体技术细节，此部分跳过。

📄 许可证

本模型使用的许可证为llama3.1。

引用

@software{hiber_multi_2024,
    title = {Hiber-Multi-10B-Instruct: Advanced Multilingual Language Model},
    author = {{Hibernates + UCLA Research Team}},
    year = {2024},
    publisher = {HuggingFace},
    version = {1.0.0},
    architecture = {Transformer},
    parameters = {10B},
    license = {LLaMA 3.1}
}

信息表格

属性	详情
模型类型	文本生成模型
基础模型	meta-llama/Llama-3.1-8B-Instruct
支持语言	英语、中文、西班牙语、法语、德语、日语、韩语、俄语
库名称	transformers
标签	text-generation-inference、hiber-multi、safetensors、Llama3.1、multilingual-llm、instruction-tuning、flash-attention2、quantization
许可证	llama3.1