游客发表
北京理工大学宣告双语轻量级语言模子,小模小模明德大模子—MindLLM 。若何
大型语言模子 (LLMs) 在种种做作语言使掷中揭示出了卓越的比肩北理功能,可是大模德由于磨炼以及推理大参数目模子需要大批的合计资源 ,导致高昂的工宣告明老本,将狂语言模子运用在业余规模中仍存在诸多事实下场 。后劲因此,小模小模北理团队先从轻量级别模子入手 ,若何最大水平发挥数据以及模子的比肩北理优势,立足更好地效率特定规模,大模德削减卑劣使命的工宣告明磨炼与推理老本。
10 月 24 日,后劲北京理工大学做作语言处置团队宣告系列双语轻量级狂语言模子明德 (Ming De LLM)——MindLLM ,小模小模周全介绍了大型模子开拓历程中积攒的若何履历,涵盖了数据构建、比肩北理模子架构 、评估以及运用历程的每一个详细步骤 。MindLLM 重新开始磨炼 ,具备 1.3B 以及 3B 两个版本 , 在某些公共基准测试中不断立室或者逾越其余开源大型模子的功能。MindLLM 还引入了专为小型模子量身定制的立异指令调解框架,来实用增强其能耐 。此外,在法律以及金融等特定垂直规模的运用,MindLLM 也具备卓越的规模顺应能耐 。
论文地址:https://arxiv.org/abs/2310.15777
MindLLM 走光
咱们分享了数据处置方面的履历,搜罗呵护高品质以及高比例的收集文本、保存书籍以及对于话等临时数据、对于数学数据妨碍下采样 ,同时对于代码数据妨碍上采样。咱们建议平均地打乱数据以妨碍能耐学习,并将一些样天职块以用于小样本学习场景。
咱们的评估服从优于部份大型模子,在未运用指令微调以及对于齐时,MindLLM模子 在 MMLU 以及 AGIEval 评测上的功能优于 MPT-7B 以及 GPT-J-6B 等大型模子。在中文方面,MindLLM 在 C-Eval 以及 CMMLU 上展现出与更大参数模子至关的功能 。详细来说 ,MindLLM-3B 在数学能耐上优于 MOSS-Base-16B 、MPT-7B 等较大模子,在双语能耐上逾越 Baichuan2-7B 以及 MOSS-Base-16B。而且