建元跨境(海南)贸易有限公司 It Helper

当地时间 4 月 2 日，美国开放人工智能研究中心（OpenAI）宣布推出 PaperBench，这是一个用于评估 AI 智能体复现前沿 AI 研究能力的全新基准。PaperBench 要求智能体从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文，过程包括深入理解论文贡献、开发代码库以及成功执行实验。 OpenAI 在 PaperBench 上对多个前沿模型进行测试后发现，表现最佳的智能体 Claude 3.5 Sonnet（新版）结合开源框架，平均复现得分达到 21.0%。不过，OpenAI 招募顶尖机器学习博士尝试部分测试集后发现，上述模型表现尚未超越人类基线。