主题

Transformer

以注意力机制为核心、成为现代语言和多模态模型骨架的架构。

高效 AI · Tsinghua University

用 Test-Time Training 线性化 ViT(SD3.5-T5)

SD3.5-T5 把 Softmax 换成继承预训练 Q/K/V/O 权重的 TTT 层,3000 步微调后 GenEval 0.69,1K 提速 1.32 倍、2K 提速 1.47 倍。

视觉基础模型 · ETH Zurich

ZipSplat:更少的高斯,更好的渲染

ZipSplat 用 k-means 场景 token 预测 3D 高斯,不再一像素一个。DL3DV 上 24.14 PSNR、249K 高斯胜过 YoNoSplat 的 1.2M,免位姿。

多模态模型 · Fudan University

ARM:统一离散表征的自回归多模态大模型详解

ARM 是 7B 自回归模型,用一套下一 token 预测同时做理解、文生图和编辑,底层是共享离散分词器;RL 把 GenEval 从 0.79 提到 0.86。

长上下文 · University of Maryland

端到端上下文压缩:LCLM 大规模训练解读

LCLM 把 0.6B 编码器和 4B 解码器联合训练,把长上下文压成软 token,支持 1:4、1:8、1:16,显著降低预填充显存和首 token 延迟,精度接近未压缩基线。

序列建模 · JKU Linz

亚二次架构对比:xLSTM、Mamba-2 与 Gated DeltaNet

JKU Linz 团队把 xLSTM、Mamba-2、Gated DeltaNet 放进代码、时序和合成任务里对比,把 xLSTM 的领先拆成两种能力:可外推的计数累积和有限状态跟踪。

长上下文 · MiniMax AI

MiniMax Sparse Attention:百万上下文稀疏注意力

MSA 让每个查询组只看 2048 个被选中的 KV token,在 1M 上下文报告 28.4 倍注意力 FLOPs 降低、14.2 倍 prefill 加速。

图像分割 · Meta AI

Mask2Former:统一三类图像分割任务

Mask2Former 用 masked attention 统一语义、实例和全景分割,COCO panoptic 达 57.8 PQ,ADE20K 达 57.7 mIoU。

语言模型 · Xiaohongshu

NITP:预测下一个 token 的语义,而非只是它的 ID

NITP 在标准 NTP 之外加了一个稠密的表征监督:让模型预测下一个 token 的浅层表征。9B MoE 上 MMLU-Pro 提升 5.71 分,只多约 2% 训练算力,推理零开销。

语言模型 · Google Research

BERT 解读:双向 Transformer 预训练如何重塑 NLP

BERT 用掩码语言建模预训练深度双向 Transformer 编码器,只加一层即可微调,把 GLUE 推到 80.5%,横扫 11 项 NLP 任务。

语言模型 · Google DeepMind

Chinchilla：算力最优的模型为何能打赢更大的模型

Chinchilla 证明参数量与训练 token 应等比例增长：700 亿参数、约 1.4 万亿 token，打赢 Gopher 280B 和 GPT-3 175B。

高效 AI · Shanghai Jiao Tong University

Domino:把投机解码的草稿与因果修正拆开

Domino 让并行草稿器一次性提出整块 token,再用一个轻量头补回 token 之间的因果依赖,Transformers 下加速最高 5.49 倍,SGLang 吞吐最高 5.8 倍。

长上下文 · Tencent

FlashMemory-DeepSeek-V4:KV 缓存压到 13.5%

用神经索引器预测下一步要用哪些 KV 块、只留在显存里,FlashMemory-DeepSeek-V4 把物理 KV 缓存压到全量基线的 13.5%,准确率几乎不降。

高效 AI · Alibaba Qwen Team

全注意力反击:RTPurbo 几百步把大模型转成稀疏注意力

RTPurbo 用两阶段各约 600 步,把训练好的全注意力大模型转成稀疏注意力,LongBench 54.24 反超 53.80,1M 上下文预填充提速 9.36 倍。

语言模型 · OpenAI

GPT-3 解读:提示词成为编程界面的时刻

GPT-3 是 1750 亿参数的自回归语言模型,仅靠提示词里的几个示例就能完成翻译、问答和推理任务,无需梯度更新或任务专用微调。

扩散模型 · Independent Researcher

Mean Mode Screaming:稳住千层扩散 Transformer

极深 DiT 会塌缩进作者称为 Mean Mode Screaming 的均值主导态。把残差拆成均值与去均值两条路径即可修复,训出稳定的 1000 层 DiT,FID 2.77。

语言模型 · Google Research

PaLM:用 Pathways 训练 540B dense 语言模型

540B dense Transformer,在 6144 块 TPU v4 上用 Pathways 跨两个 Pod 训练,少样本刷新纪录,BIG-bench 超过人类平均。

扩散模型 · Alibaba Qwen Team

重新审视扩散 Transformer 的跨层信息路由

DAR 用随时间步自适应的子层输出聚合替换扩散 Transformer 的残差相加:SiT-XL/2 的 ImageNet FID 从 9.67 降到 7.56,迭代量仅基线 1/8.75。

语言模型 · Google Research

T5 解读:用一套文本到文本接口统一所有 NLP 任务

T5 把所有 NLP 任务都写成「文本进、文本出」,并系统横扫目标、架构、数据与规模;110 亿参数版在 GLUE、SuperGLUE、SQuAD 上刷出当时 SOTA。

文本嵌入 · Renmin University of China

EmbFilter:把大模型的解嵌入矩阵当成特征透镜

EmbFilter 把解嵌入矩阵当透镜,剥掉文本嵌入里被高频废词占据的子空间,在不微调的前提下提升零样本检索并降维。

视觉基础模型 · Google Research

Vision Transformer (ViT)：一张图等于 16x16 个词

ViT 把图像切成 16x16 patch 直接喂给标准 Transformer，在 JFT-300M 上预训练后超过顶尖 CNN，ImageNet 达 88.55%，且训练算力更省。

Transformer · Google Research

Attention Is All You Need:Transformer 架构详解

2017 年的 Transformer 抛弃循环与卷积,只用注意力,WMT14 英德 28.4 BLEU、英法 41.8 BLEU,8 卡训练 3.5 天。如今几乎所有大模型都继承它。

高效 AI · Stanford University

FlashAttention 详解:IO 感知精确注意力,提速 2-4 倍

FlashAttention 是精确注意力算法,用分块和重计算压缩 GPU 内存搬运:GPT-2 提速 3 倍、BERT-large 提速 15%,显存随序列长度线性增长。