GENEB:为什么基因组基础模型这么难比较

快速答案

GENEB 用统一的探针(probing)协议,在 13 个功能类别、共 100 个下游任务上评测了 40 个基因组基础模型的冻结表征,核心结论是:不存在一个稳定的赢家。在某一类别登顶的模型,换一类可能只排中游,所以单一的聚合榜单遮蔽的信息比它呈现的还多。增大参数量只带来微弱且不一致的收益,而让架构和预训练数据对上任务类型,往往比单纯堆模型规模更管用。

GENEB 到底测的是什么

GENEB 是一个诊断型基准,而不是一个准确率数字。每个模型都保持冻结,用统一协议探测:从预训练编码器取出嵌入,再在上面为每个任务拟合一个轻量探针。由于只有探针在训练,分数差异反映的是预训练表征本身已经编码了什么,而不是谁把下游头调得更好。100 个任务被归入 13 个功能类别——调控元件、剪接、染色质、变异效应等等——于是你能读出一个模型横跨生物学的「能力画像」,而不是把它压缩成一个平均值。

套件还包含少样本(few-shot)设定。这一点很关键,因为多数基因组实验室并没有每个任务上千条标注;现实问题是:当你只负担得起寥寥几个标签时,一个冻结表征到底有多好用。

统一探针协议才是真正的贡献

基因组机器学习里一个诚实的问题是:几乎每个基础模型都用自己的基准、自己的划分、自己的微调预算、自己的预处理来报成绩。两篇都宣称「最优」的论文,往往压根没在测同一件事,于是整个领域连最基本的问题都答不上来:我该从哪个预训练 DNA 模型起步?GENEB 的价值就在受控对比——对全部 40 个模型用同一套冻结探针协议、同样的任务、同样的划分——从而把规模、架构、分词、预训练数据的影响分离开,而不是把它们搅在一起。

哪怕你永远不会去跑这个基准,这部分也值得认真对待:它把「哪个模型最好」重新表述为「针对什么任务最好」,并证明前一种问法在这个领域里几乎没有意义。

关键结果

40 个模型、100 个任务、13 个类别——迄今规模最大的、基于探针的基因组基础模型受控对比,全部在同一协议下以冻结方式评测。
排名不稳定。 模型次序在 13 个任务类别间剧烈变化,聚合榜单具有误导性;在调控任务中名列前三的模型,在别处可能掉到很靠后。
缩放失灵。 更多参数只换来微弱且不一致的提升——没有语言模型里那种干净的缩放曲线。
架构与预训练对齐胜过规模。 模型架构和预训练数据是否匹配下游任务类型,往往比参数量更重要。
少样本暴露脆弱性。 在标签受限设定下,模型之间的差距再次重排,全量数据下的领先者在标签稀缺时未必是对的选择。

为什么现在重要

基因组基础模型增殖的速度,已经超过任何人能公平比较它们的速度,而经费和临床流水线正开始把某个模型选为默认编码器。GENEB 让从业者可以基于自己真正在意的任务类别来选模型,也给模型构建者一个警告:报一个聚合分数、或拿参数量当进步的证据,在受控探针下站不住脚。直白地说,「我们的基因组大模型更大所以更好」这套叙事,一旦把评测固定住,大半都不成立。

局限与存疑

冻结探针是一个有代价的刻意选择:它测的是表征已经编码了什么,而不是模型经过完整微调后能达到的上限,所以一个探针表现差的模型,端到端微调后仍可能反超。这个基准也是一张快照——固定任务集上的 40 个模型——而基因组模型、分词器、上下文长度都在快速演进,榜单会过时。GENEB 诊断出了不稳定,却没有完全解释其机制:它指出架构与预训练对齐重要,但没给出一条能预测「哪个模型会赢下新任务类别」的规则。和任何基准一样,它的 100 个任务也内含了对「什么叫理解基因组」的取舍;它没纳入的任务,可能会改写结论。

常见问题

GENEB 基准是什么?

GENEB 是一个大规模诊断型基准,用统一探针协议,在 13 个功能类别、共 100 个任务上评测 40 个基因组基础模型的冻结表征,使对比是受控的、而非各自报成绩。

GENEB 对基因组模型缩放有什么发现?

GENEB 发现缩放是失灵的:增加参数只带来微弱且不一致的收益,没有干净的缩放定律,而架构以及预训练数据与任务的对齐,往往比模型规模更重要。

为什么基因组基础模型很难比较?

因为每个模型通常用自己的数据划分、微调预算和预处理来报成绩,两个「最优」声明很少在测同一件事。GENEB 对全部 40 个模型固定协议以保证公平对比,并显示排名会跨任务类别翻转。

该按 GENEB 的聚合榜单挑基因组模型吗?

不该——GENEB 的核心警告就是聚合排名不稳定。应按你任务所属的功能类别和标签预算来选,因为在调控任务上最好的模型,换一类可能排得很靠后。

一句话:把评测固定住,「基因组模型越大越好」的故事就垮了——按任务类别选,而不是按参数量。阅读 arXiv 原文。