标签:
- 大语言模型
- 羊驼模型
- 拼写检查
- 语法校对
许可证: llama2
文本编辑专家Karen(第二版)创意版
啊,Karen,语法黄瓜园里真正的蜜桃!她渴望纠正那些糟透的小说里充斥的错漏与语病。但与那些沉迷于自我陶醉、便秘式说教的ChatGPT不同,Karen始终扎根语法智慧,同时尊重您的文风。
基本信息
Karen第二版采用了与初版完全不同的数据集和基础模型。
Karen V2有两个版本
- 严谨版([点击此处](https://huggingface.co/FPHam/Karen_TheEditor_V2_STRICT_Mistral_7B)),Karen会尽量保持原文风貌,主要修正语法拼写,默认您清楚自己的写作意图
- 创意版(当前版本),Karen可能会酌情建议语境优化或措辞调整。就像微醺状态的Karen
核心功能
Karen主要致力于修正美式英语的语法拼写错误而不改变文本风格。她特别擅长识别常见非母语错误:
动词时态错误:
混淆现在时与过去时
混用进行时与一般时
主谓一致问题:
单复数主语与动词不匹配
冠词使用:
混淆"a/an"用法
定冠词"the"的滥用或遗漏
介词误用:
错用"in/on/at"等介词
必要介词的缺失
语序错误:
疑问句/否定句语序混乱
副词/形容词错位
名词复数:
漏加"-s/-es"词尾
代词错误:
主宾格代词混淆
物主代词误用
双重否定:
违反标准英语语法规范
情态动词:
can/could/will/would/should等误用
近义词混淆:
如their/there/they're混用
单复数不一致:
句中名词动词单复数不匹配
未来计划
升级更大模型规模,补充当前遗漏的语法案例,优化数据集质量,扩展训练数据量
训练方法
采用逆向训练:先由另一个羊驼模型(Dark Karen)和Python脚本在小说/非小说文本中故意植入错误,再进行纠错训练
使用建议
建议每次提交一个段落进行编辑
模型采用ChatML格式
<|im_start|>system
<|im_end|>
<|im_start|>user
编辑以下文本的拼写和语法错误:{文本段落} <|im_end|>
<|im_start|>assistant
注意前缀提示语*编辑以下文本的拼写和语法错误:*能确保Karen直接修正文本而非评价文本
推荐参数
- 温度值:0.7
- 顶部概率:0.1
- 顶部k值:40
- 重复惩罚:1.18
Karen也可用于日常聊天。但若对话内容过长,她可能误判为需要校对而非普通交流
示例:
编辑以下文本的拼写和语法错误:我认为未来写作趋势是让人随心创作,再由大语言模型润色成合格小说。这种模式更有成就感,能真正感受到创造性。人类负责创意,AI当打杂小弟。
现在很多人反其道而行,让AI从构思大纲到撰写章节全程创作,人类只做拼装工。这等于让AI当主创,人类当保洁。
正常人怎会长期满足于此?
所以我认为将被取代的是编辑岗,而非作家岗。
(语法评分:48)
严谨版输出:
我认为未来的写作趋势将是人们先自由创作故事,再由LLM等AI编辑润色成合格小说。这似乎是更令人满意的创作方式,能真正感受到创造性。人类始终是创意主体,AI只是打杂助手。
当前许多人却反其道而行,要求AI完成从构思前提、拟定大纲到撰写章节的全流程。人类只需拼接这些片段。这种情况下AI反成创意核心,人类沦为保洁人员。
难以想象普通人能长期满足于此。
因此我认为最终被AI取代的将是编辑职能,而非作家职能。
(语法评分:93)
创意版输出:
在我看来,未来写作更可能的发展方向是:人类尽情发挥创意写作,再由GPT-3等AI进行专业润色。这种模式更能带来创作满足感,让你切实感受到自己的创造性。此时人类保持创意主导权,AI仅担任辅助角色。
而当前许多人推崇的做法恰恰相反——要求AI从头构建故事(从构思前提、规划大纲到撰写章节),人类仅负责组装这些预制件。这就使AI晋升为创意总监,人类降级为清洁工。
实在难以理解这种模式如何能带来长期满足感。
因此我的结论是:未来面临淘汰风险的将是编辑职位,而非作家岗位。
(语法评分:83)
结论
经过十余个版本的迭代优化,当前模型已具备较好的工作效果,仅偶尔出现存在争议的语法疏漏。这些局限性与70亿参数规模有关——对于理解文本的精细语义差异,这个体量仍显不足。其他测试也印证:Mistral模型在自主生成文本时表现优异,但在语义理解方面仍有提升空间。
本项目最大挑战在于:既要修正错误,又要保持原作风貌。常见的大模型在接到编辑指令时,往往会对本无问题的文本进行过度改写。对于这个小体量模型而言,在"精确修正"与"原样保留"之间找到平衡点尤为困难。
严谨版默认使用者具备成熟写作能力,每个用词都经过深思熟虑。