自由软件工程是一个利润丰厚且充满活力的领域,技术娴熟的开发人员可以应对从错误修复到全栈功能开发的各种挑战。近年来,这些从业者率先将 AI 系统融入他们的工作流程以辅助编写代码。
这引发了一个有趣的问题:AI 系统能否独自完成同样的工作?换句话说,软件工程师是否已经有效地“淘汰”了自己的工作?
现在,得益于 OpenAI Research 的 Samuel Miserendino、Michele Wang 和同事们的工作,我们得到了一种答案。他们开发了一个基准测试工具,用于确定最先进的大型语言模型(LLM)是否能够完成一组已被人类解决过的真实软件开发任务。这些人类开发人员在此过程中赚取了 100 万美元,这自然引发了 AI 系统能否独自谋生的疑问。
这个答案对于人类开发者来说,可能会让他们感到些许安慰。Miserendino、Wang 及其同事表示:“在我们测试的基准中,现实世界的自由职业工作对前沿语言模型来说仍然具有挑战性。”尽管如此,他们计算出,最好的模型能够成功赚取这 100 万美元中的一大部分。
代码红色
软件工程涉及的不仅仅是编写代码。工程师必须解读客户需求,驾驭复杂的代码库,并就正确的解决方案做出高级架构决策。现实世界的自由职业工作需要全栈开发、调试和管理技能。
评估大型语言模型在这些任务上的表现很棘手,因为大多数基准测试涉及标准的编码问题,这只占自由职业者挑战的一小部分。
Miserendino、Wang 及其同事着手改变这一状况,创建了一个包含人类自由职业者以前已解决的真实软件工程任务的数据库。他们称他们的基准测试为 SWE-Lancer,并希望它能成为衡量先进大型语言模型真实编码性能的标准。
该团队从 Expensify 收集了自由职业任务,这是一家拥有 1200 万客户使用的费用管理系统的上市公司。该软件需要持续的维护和开发,为此公司依赖自由职业者。Expensify 使这些编码任务公开,并发布到自由职业者网站 Upwork 上。
OpenAI 团队选择了其中的 1488 个任务。大约一半的任务是针对个人程序员的,涉及开发编码补丁以解决现实世界问题的任务。另一半的任务是面向经理的,涉及从人类自由职业者提交的竞争性提案中选择最佳解决方案。
所有任务都已由人类自由职业者完成,他们的报酬从 250 美元到 32,000 美元不等。所有任务的总价值为 100 万美元。
为了测试当前最先进的 AI 模型,该团队将每个任务分配给了 Anthropic 的 Claude 3.5 Sonnet 以及 OpenAI 的 GPT-4o 和 o1 模型。AI 系统收到了在 Upwork 平台上显示的有关问题的文本描述,以及在修复之前代码的快照,以及修复问题的目标。
对于管理任务,模型收到了一个问题的各种拟议解决方案、要修复的代码快照以及选择最合适解决方案的目标。
结果很有启发性。Miserendino、Wang 及其同事表示:“Sonnet 3.5 的表现最好,其次是 o1,然后是 GPT-4o。”但它们远非完美。研究人员说:“在整个 SWE-Lancer 数据集上,所有模型的收入都远低于 100 万美元的全部潜在支付额。”
尽管如此,对于一些问题来说,还是有可观的回报的。“在整个 SWE-Lancer 数据集上,Claude 3.5 Sonnet 在 100 万美元的可能收入中获得了超过 400,000 美元。”
对于使用 AI 辅助工作的自由职业开发者来说,这似乎是一笔合理的收入。但显然存在局限性。AI 系统在管理任务上的表现优于个人编码任务,后者往往会产生表面上的修复,而不是解决根本问题。这表明 AI 在评估解决方案方面比在实施解决方案方面更胜一筹。
总而言之,AI 系统能够处理不到 50% 的可用任务,这使得团队得出了一个令人沮丧的结论。研究人员说:“在我们测试的基准中,现实世界的自由职业工作对前沿语言模型来说仍然具有挑战性。”
赚钱
该团队表示,LLM 无法超越人类自由职业者源于几个根本问题。例如,AI 模型缺乏对代码的深入理解——相反,它们仅仅是模式生成器。人类工程师还会迭代地优化他们的解决方案,运行测试并调试意外行为,这是 LLM 难以复制的方法。
尽管 LLM 尚未准备好取代人类工程师,但 SWE-Lancer 基准测试揭示了令人兴奋的潜力。它表明 AI 助手很可能会帮助自动化常规编码任务,从而使人类开发人员能够专注于更高级别的问题解决。
研究人员没有详细研究的一个方面是人类与机器完成任务所需的时间。也许 AI 系统目前在某些任务上并没有好多少,但它们却显著更快。这不可避免地会在商业计划中体现出来。
但它们表明,有些任务已经成熟,可以实现自动化,并且可能已经被有进取心的自由职业者和企业以这种方式完成了。随着模型的进步,这一比例很可能会增加。
并且,从 AI 模型在其他高级数学问题等基准测试中取得的进步来看,这种改进可能会迅速加速。
显然,颠覆性变革的时机就是现在。
参考:SWE-Lancer:前沿 LLM 能否从现实世界的自由软件工程中赚取 100 万美元?:arxiv.org/abs/2502.12115














