模型简介
模型特点
模型能力
使用案例
🚀 NorwAI-Mistral-7B-instruct模型
NorwAI-Mistral-7B-instruct是基于约9000条自收集的高质量挪威语指令对NorwAI-Mistral-7B进行指令微调后的变体模型。它属于挪威科技大学(NTNU)的NowAI研究中心与Schibsted、NRK、VG和挪威国家图书馆等合作开发的NowAI大语言模型(LLM)家族。该家族致力于推动挪威语大语言模型的研究和应用。
🚀 快速开始
若要使用NowAI LLM模型,需用于北欧国家的商业或研究用途。使用前,请仔细阅读相关信息并填写所需内容。
请注意,访问权限仅限于北欧国家的学生、公司和组织。请提供工作邮箱或学生邮箱以访问模型。感谢您的理解。
✨ 主要特性
- 丰富的模型家族:NowAI LLM家族包含多种不同规模(7B和45B)和架构的预训练、继续预训练和指令微调生成式文本模型。
- 高质量指令微调:指令微调模型使用从挪威母语者收集的高质量挪威语指令进行优化。
- 统一的训练基础:所有预训练和继续预训练模型基于相同的数据集和分词器。
📚 详细文档
模型详情
NorwAI-Mistral-7B-instruct是NorwAI-Mistral-7B的指令微调版本,使用约9000条自收集的高质量挪威语指令进行调整。它属于NowAI LLM家族,该家族由挪威科技大学(NTNU)的NowAI研究中心与Schibsted、NRK、VG和挪威国家图书馆合作开发。
NowAI LLM包含一系列不同架构、规模为7B和45B的预训练、继续预训练和指令微调生成式文本模型。所有预训练和继续预训练模型基于相同的数据集和分词器,指令微调模型使用从挪威母语者收集的高质量挪威语指令进行优化。该家族模型的开发旨在推动挪威语大语言模型的研究和应用。
属性 | 详情 |
---|---|
开发团队 | 挪威科技大学的NowAI团队、Schibsted和VG |
模型类型 | 生成式文本模型 |
语言(NLP) | 挪威语 |
微调基础模型 | NorwAI-Mistral-7B |
分词器 | 通过将Llama 2分词器与自研挪威语分词器的词汇表合并,扩展了挪威语词汇表,扩展后的词汇表大小为64000 |
模型发布日期 | 2024年5月15日,且持续更新 |
NowAI LLM家族基于自回归语言模型架构。
模型名称 | 参数数量 | 训练方案 | 上下文长度 | 基础模型 |
---|---|---|---|---|
NorwAI-Mistral-7B | 7B | 继续预训练 | 32k | Mistral-7B-v0.1 |
NorwAI-Mistral-7B-pretrain | 7B | 从头开始预训练 | 32k | Mistral-7B-v0.1 |
NorwAI-Llama2-7B | 7B | 继续预训练 | 4096 | Llama2 |
NorwAI-Mixtral-8x7B | 45B | 继续预训练 | 32k | Mixtral-8x7B-v0.1 |
NorwAI-Mistral-7B-instruct | 7B | 指令微调 | 32k | NorwAI-Mistral-7B |
NorwAI-Mixtral-8x7B-instruct | 45B | 指令微调 | 32k | NorwAI-Mixtral-8x7B |
用途
NowAI LLM适用于北欧国家的商业和研究用途。若要访问模型,请仔细阅读相关信息并完成所需内容的填写。
偏差、风险和局限性
该模型可能存在大语言模型常见的潜在风险,如幻觉、事实不一致、毒性和偏差等。
训练详情
训练数据
所有NorwAI LLM模型在511.5亿个标记(相当于303.3亿个单词)上进行(继续)预训练,这些数据来自公共数据集以及Schibsted、NRK和VG合作伙伴根据协议共享的数据。公开可用的数据集经过预处理以过滤掉有版权问题的文本,所有数据集都经过预处理以去除敏感信息。
训练基础设施
所有模型均使用llm-foundary框架在挪威科技大学的IDUN集群上进行预训练和微调。
💻 使用示例
基础用法
我们有两种用于指令微调的提示模板:
If we have input data, we use Prompt 1: {instruction}\n\n{inst_input}\nAnswer:
If we do not have iniput data, we use Prompt 2: {instruction}\n\nAnswer:
以下是加载模型的示例:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_and_tokenizer_path = "NorwAI/NorwAI-Mistral-7B-instruct"
access_token = "<your access token>"
# import tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_and_tokenizer_path, token=access_token)
model = AutoModelForCausalLM.from_pretrained(model_and_tokenizer_path, token=access_token, device_map='balanced')
# define your own prompt
prompt = """Hvilket av de følgende alternativene er Norges nordligste punkt?\n\na) Nordkapp b) Alta c) Vardø d) Hammerfest\n
Svar:"""
# generate response
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs,
min_new_tokens=50,
max_new_tokens=100,
do_sample=True,
temperature=0.3)
outputs = tokenizer.decode(outputs[0], skip_special_tokens=True)
根据我们的测试,将Answer
替换为Svar
也能达到相同的效果。
📄 许可证
NorLLM许可证
使用、复制和分发的条款和条件
1. 定义
- “许可证”指本文件第1至9节所定义的使用、复制和分发的条款和条件。
- “许可方”指挪威科技大学(NTNU)。
- “法律实体”指行为实体与所有其他控制该实体、受该实体控制或与该实体受共同控制的实体的联合体。就本定义而言,“控制”指(i)直接或间接导致该实体的方向或管理的权力,无论是通过合同还是其他方式;或(ii)拥有百分之五十(50%)或更多的已发行股份;或(iii)对该实体的实益所有权。
- “您”指行使本许可证授予的权限的个人或法律实体。
- “源代码形式”指便于进行修改的首选形式,包括但不限于软件源代码、文档源和配置文件。
- “目标代码形式”指由源代码形式进行机械转换或翻译而产生的任何形式,包括但不限于编译后的目标代码、生成的文档以及转换为其他媒体类型的形式。
- “作品”指根据本许可证提供的版权作品,无论是源代码形式还是目标代码形式,由包含在作品中或附于作品的版权声明所表明(以下附录中提供了一个示例)。
- “衍生作品”指基于(或源自)该作品的任何作品,无论是源代码形式还是目标代码形式,其编辑修订、注释、阐述或其他修改整体上代表了原创的版权作品。就本许可证而言,衍生作品不包括与该作品及其衍生作品保持可分离状态,或仅与该作品及其衍生作品的接口进行链接(或按名称绑定)的作品。
- “贡献”指任何版权作品,包括作品的原始版本以及对该作品或其衍生作品的任何修改或添加,由版权所有者或经版权所有者授权代表其提交的个人或法律实体有意提交给许可方以纳入该作品。就本定义而言,“提交”指发送给许可方或其代表的任何形式的电子、口头或书面通信,包括但不限于在电子邮件列表、源代码控制系统和由许可方或代表许可方管理的用于讨论和改进该作品的问题跟踪系统上的通信,但不包括版权所有者明确标记或以其他书面方式指定为“非贡献”的通信。
- “贡献者”指许可方以及许可方已收到其贡献并随后将其纳入作品的任何个人或法律实体。
2. 版权许可授予
在遵守本许可证的条款和条件的前提下,每个贡献者特此授予您永久、全球、非排他、免费、免版税、不可撤销的版权许可,允许您以源代码形式或目标代码形式复制、创作衍生作品、公开展示、公开表演、再许可和分发该作品及其衍生作品。
3. 专利许可授予
在遵守本许可证的条款和条件的前提下,每个贡献者特此授予您永久、全球、非排他、免费、免版税、不可撤销(除非本节另有规定)的专利许可,允许您制造、委托制造、使用、要约销售、销售、进口以及以其他方式转让该作品,该许可仅适用于该贡献者可许可的那些专利权利要求,这些权利要求仅由其贡献单独或与其贡献所提交的作品相结合必然侵犯。如果您对任何实体提起专利侵权诉讼(包括诉讼中的交叉索赔或反诉),声称该作品或纳入该作品的贡献构成直接或间接专利侵权,则本许可证授予您的关于该作品的任何专利许可将自该诉讼提起之日起终止。
4. 再分发
您可以以任何媒介复制和分发该作品或其衍生作品,无论是否进行修改,也无论是源代码形式还是目标代码形式,但需满足以下条件:
- 使用限制:该作品或其衍生作品可在第4.2条定义的地理范围内免费使用。使用仅限于您自己的目的,但不得用于转售,也不得用于可能侵犯或对健康、安全、环境保护和/或基本权利(如人的尊严权、尊重私人和家庭生活权、个人数据保护权、言论和信息自由权、集会和结社自由权、非歧视权、消费者保护权以及保护儿童的特定权利)产生负面影响的目的。
- 地理限制:只有在北欧国家(丹麦、挪威、瑞典、芬兰和冰岛)设有住所或注册总部的组织,在遵守本许可证的其他条款的前提下,方可无需额外同意使用该作品或其衍生作品。
- 归属要求:
- 您必须向该作品或其衍生作品的任何其他接收者提供本许可证的副本。
- 您必须使任何修改过的文件带有显著的通知,说明您对这些文件进行了更改。
- 您必须在您分发的任何衍生作品的源代码形式中保留该作品源代码形式中的所有版权、专利、商标和归属声明,但不包括与衍生作品的任何部分无关的声明。
- 如果该作品在分发时包含一个“NOTICE”文本文件,则您分发的任何衍生作品必须在以下至少一处包含该NOTICE文件中包含的归属声明的可读副本,但不包括与衍生作品的任何部分无关的声明:作为衍生作品一部分分发的NOTICE文本文件中;如果随衍生作品提供了源代码形式或文档,则在其中;或者,如果第三方声明通常会在衍生作品生成的显示中出现,则在该显示中。NOTICE文件的内容仅用于提供信息,不修改本许可证。您可以在您分发的衍生作品中添加您自己的归属声明,与该作品的NOTICE文本并列或作为其附录,但前提是此类额外的归属声明不能被解释为修改本许可证。
- 您可以在您的修改中添加您自己的版权声明,并可以为您的修改或任何此类衍生作品整体的使用、复制或分发提供额外或不同的许可条款和条件,但前提是您对该作品的使用、复制和分发在其他方面符合本许可证规定的条件。
5. 贡献的提交
除非您明确另有说明,否则您有意提交给许可方以纳入该作品的任何贡献应受本许可证的条款和条件约束,无需任何额外的条款和条件。尽管有上述规定,本条款并不取代或修改您可能与许可方就此类贡献签订的任何单独许可协议的条款。
6. 商标
本许可证未授予使用许可方的商号、商标、服务标记或产品名称的许可,但描述该作品的来源和复制NOTICE文件的内容所需的情况除外。
7. 保修免责声明
除非适用法律要求或书面同意,许可方按“现状”提供该作品(每个贡献者按“现状”提供其贡献),不提供任何形式的明示或暗示的保证或条件,包括但不限于所有权、不侵权、适销性或特定用途适用性的任何保证或条件。您独自负责确定使用或再分发该作品的适当性,并承担与您行使本许可证下的权限相关的任何风险。
8. 责任限制
在任何情况下,无论依据何种法律理论,无论是侵权(包括疏忽)、合同还是其他方式,除非适用法律要求(如故意和重大过失行为)或书面同意,任何贡献者均不对您因本许可证或因使用或无法使用该作品而产生的任何损害负责,包括任何直接、间接、特殊、偶然或后果性的损害(包括但不限于商誉损失、工作停顿、计算机故障或故障或任何和所有其他商业损害或损失),即使该贡献者已被告知此类损害的可能性。
9. 接受保修或额外责任
在再分发该作品或其衍生作品时,您可以选择提供并收取费用以接受与本许可证一致的支持、保修、赔偿或其他责任义务和/或权利。但是,在接受此类义务时,您只能代表您自己并独自承担责任,而不能代表任何其他贡献者,并且只有在您同意赔偿、辩护并使每个贡献者免受因您接受任何此类保修或额外责任而产生的任何责任或针对该贡献者提出的任何索赔的情况下方可如此做。
条款和条件结束
技术问题联系人:Lemei Zhang (lemei.zhang@ntnu.no),Peng Liu (peng.liu@ntnu.no) 许可证问题联系人:Jon Atle Gulla (jon.atle.gulla@ntnu.no)
额外访问信息
- 额外访问字段:
- 姓名:文本
- 组织:文本
- 国家:国家
- 工作邮箱:文本
- 我希望将此模型用于:
- 类型:选择
- 选项:
- 研究
- 教育
- 商业
- 其他
- 我已阅读并接受NorLLM许可证的条件:复选框
- 额外访问标题:确认许可证以接受存储库
- 额外访问描述:我们的团队可能需要1 - 2天来处理您的请求
- 额外访问按钮内容:确认许可证
📞 模型卡片联系信息
如果您对模型有任何疑问,请联系以下人员: Lemei Zhang,lemei.zhang@ntnu.no Peng Liu,peng.liu@ntnu.no



