在硅谷的工程师鄙视链里,有一群人是站在金字塔绝对顶端的。他们不写炫酷的前端,不搞花哨的产品,他们终日潜伏在操作系统的底层,和编译器、构建系统、虚拟文件系统死磕。他们存在的意义,是保证像 Meta ...
新智元报道 编辑:LRST【新智元导读】ContextBench首次从「过程」评测代码智能体,不再只看是否修好代码,而是追踪它是否精准找到并真正使用了关键代码片段,揭示了当前模型多读少用、被关键词误导、复杂架构无效等深层问题,推动AI助手向更可靠、可解释的方向进化。在自动化软件工程(Automated Software ...