Attention Is All You Need:现代 AI 的底层架构
Transformer 去掉循环和卷积,用注意力机制与并行训练处理序列任务;几乎所有现代大模型都站在这一步之上。
主题
用于建模文本、音频、代码、基因组等长序列数据的架构。
Transformer 去掉循环和卷积,用注意力机制与并行训练处理序列任务;几乎所有现代大模型都站在这一步之上。
序列建模 · Carnegie Mellon University
Mamba 让状态空间模型具备选择性,可以根据输入决定记住或遗忘什么,同时保持随序列长度线性扩展。