主题

小语言模型

紧凑、可端侧与边缘部署的模型——以更少参数换取强能力,服务本地与低成本推理。

DistilBERT:更小更快的 BERT把紧凑语言模型的知识蒸馏落到具体方法和可检查结果上,适合判断该方向的真实进展。

MobileBERT:端侧紧凑 BERT把面向端侧的 BERT 压缩落到具体方法和可检查结果上,适合判断该方向的真实进展。

TinyLlama:开放小语言模型配方把开放小语言模型训练落到具体方法和可检查结果上,适合判断该方向的真实进展。

MobileLLM 认为十亿参数以下架构比单纯堆数据更关键:深而窄设计让 125M/350M 模型提升 2.7%/4.3%,共享再加 0.7%/0.8%。

SmolLM2 是 1.7B 小模型,约 11T token 分四阶段过量训练。HellaSwag 68.7、MMLU-Pro 19.4 胜过 Llama3.2-1B,且四套数据集一起开源。

Phi-3-mini 仅 38 亿参数,靠重度筛选加合成的「教科书级」数据训练,MMLU 69%、MT-bench 8.38,比肩 GPT-3.5,却小到能跑在手机上。