AI 智能体 · TokenRhythm Technologies
Claw-SWE-Bench:编码智能体不能只看模型
Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。
机构
中国顶尖研究型大学,其 EPIC 实验室专注高效 AI 与大模型推理加速。
AI 智能体 · TokenRhythm Technologies
Claw-SWE-Bench 用 350 个 issue 测 coding-agent harness,完整 adapter 让 OpenClaw Pass@1 升至 73.4%。
AI 智能体 · Shanghai Jiao Tong University
超网络一次前向就把文本技能编译成 LoRA。ALFWorld 成功率涨 21.4 分,prefill token 省 64.1%。
AI 智能体 · Shanghai Jiao Tong University
SWE-Explore 单独考核代码探索:848 个 issue 上智能体远超 BM25(HitFile 0.65 对 0.08),但行级召回卡在 0.15-0.20,这才是真瓶颈。
NITP 在标准 NTP 之外加了一个稠密的表征监督:让模型预测下一个 token 的浅层表征。9B MoE 上 MMLU-Pro 提升 5.71 分,只多约 2% 训练算力,推理零开销。
AI 智能体 · Shanghai Jiao Tong University
ARIS 是开源自主科研框架,让 Claude 系执行者搭配 GPT 系审稿者互相攻击,专治「看似成功实则无依据」,含 65+ 技能与三阶段证据审计。
高效 AI · Shanghai Jiao Tong University
Domino 让并行草稿器一次性提出整块 token,再用一个轻量头补回 token 之间的因果依赖,Transformers 下加速最高 5.49 倍,SGLang 吞吐最高 5.8 倍。
AI 智能体 · Shanghai Jiao Tong University
MMSkills 把流程、状态卡、关键帧打包成可复用技能,在 OSWorld 上把 8B 小模型从 10.78% 翻倍到 25.40%,235B 模型从 21.34% 升到 39.17%。