首页 AI开发编程 书名:全球第一位AI超级工程师:一条命令即可完成整个开发流程

书名:全球第一位AI超级工程师:一条命令即可完成整个开发流程

标题:全球首个 AI 超级工程师:一个指令就能完成整个开发过程

作者|蒂娜、李冬梅、核子可乐

今天,一家名为Cognition AI 的新初创公司宣布了他们的最新项目:Devin,第一位人工智能软件工程师。

在他们的宣传中,德文能够将用户提示直接转换为网站或视频游戏。它可以自主下载代码、构建环境、执行代码、修复错误和完成任务,并且只需要一条命令即可完成这些端到端的任务。

在SWE-bench 基准测试中,Devin 能够解决13.86% 的问题,而GPT-4 只能处理1.74% 的问题。更重要的是,Devin 不需要手动干预,而GPT-4 需要手动提示来指定要处理的文件。

Devin一经发布,引爆了整个科技圈。但在此之前,大多数人可能从未听说过这家公司。毕竟,他们真正出现在公众面前才两个月前。然而,这家只有10 名员工的公司却成功从Peter Thiel 的风险投资公司Founders Fund 和包括前Twitter 高管埃拉德·吉尔(Elad Gil) 在内的其他投资者那里筹集了2100 万美元。他们要找的是Cognition AI的创始团队及其主要成果Devin。

Devin 是一款与Copilot 类似的软件开发助手,但与后者由GitHub、微软、OpenAI 联合推广的不同,Devin 更多的是下一代AI 编程解决方案。 Devin 不仅可以提供编码建议并自动化一些任务,他甚至可以自己承担并完成整个软件开发过程。使用起来也很简单,只需提交一个任务——,比如创建一个网站,显示悉尼所有意大利餐厅的地图——,软件就会执行搜索找到餐厅,获取相应的地址和联系信息,然后构建并发布显示。信息网站。在运行时,Devin 还会列出它正在执行的所有任务,甚至在编写代码时不断进行测试,自行查找和修复错误。

德文能做什么?

那么,如此强大的德文能做什么呢?

总体而言,Devin 可以规划和执行需要数千个决策的复杂工程任务。 Devin 可以回忆每个步骤的背景,随着时间的推移学习并修复错误。

开发团队还为Devin 配备了常用的开发人员工具,包括沙箱计算环境中的shell、代码编辑器和浏览器,以及人类开发人员完成工作所需的一切。

最后,研发团队还赋予了Devin主动与用户协作的能力。 Devin 能够实时报告协作进度、接受反馈并根据需要与用户一起做出设计选择。

以下是Devin 可以执行的操作的示例:

德文可以学习如何使用不熟悉的技术。

以下视频演示了Devin 在Modal 上运行ControlNet 来为Sara 生成带有隐藏消息的图像。

观看视频请前往原文

Devin 端到端地构建和部署应用程序。

Devin 为Sims 游戏构建了一个交互式网站,逐步添加用户请求的功能,然后将应用程序部署到Netlify。

观看视频请前往原文

Devin 可以自己发现并修复代码库中的错误。

Devin 帮助Andrew 维护和调试他的开源相关编程书籍。

观看视频请前往原文

Devin 解决开源存储库中的错误和功能请求。

只需提供GitHub 问题的链接,Devin 就会完成所需的所有设置和上下文收集。

观看视频请前往原文

尽管Devin能够很好地完成上述工作,但为了更清楚地了解其性能,研发团队在SWE-bench上对Devin进行了评估,这是一个具有挑战性的基准,需要Agents解决Django和scikit-learn的问题。开源项目中真正的GitHub 问题。

Devin 能够完全解决13.86% 的问题,远远超过了之前1.96% 的最先进水平。即使给定要编辑的确切文件,之前的最佳模型也只能解决4.80% 的问题。

Devin 的评估是对数据集的随机25% 子集进行的。 Devin 不受协助,而所有其他模型都受到协助(意味着您告诉模型哪些文件需要编辑)。

你怎么认为?

特斯拉前人工智能总监、OpenAI 创始团队成员Andrej Karpathy 认为,这种自动化软件工程有点类似于自动驾驶技术。人工智能做得越来越多,人类做得越来越少,但人类仍然需要提供监督。在软件工程中,流程正在形成如下所示:

首先,人类手动编写代码

然后GitHub Copilot 自动完成几行代码

接下来,ChatGPT编写代码块

最终,代码差异会越来越大

Karpathy强调,除了AI部分之外,还有很多工作需要人类来做,特别是在UI/UX方面。人类如何进行监督?他们关注什么?他们如何引导人工智能走上不同的道路?他们如何调试出了问题?我们很可能必须对代码编辑器进行重大更改。

无论如何,软件工程正在发生巨大的变化。它看起来更像是监督自动化,同时提供高级命令、想法或进展策略。

OpenAI 员工Jimmy Apples 对Devin 的出现感到震惊。他说:“我原以为这项技术再过两三年才会出现,但没想到这么快就到了,现在才三月份。”

德文的出现让更多人意识到没有任何工作是保证安全的,他们可能都会被AI取代。

一个发布在AI上的用户可以同时完成10到100人的工作,而且现在可能已经完全自动化了。”

荣获10项金牌的创始人及其独特的技术解决方案

Cognition AI公司有三位创始人,第一位是CEO Scott Wu,第二位是CTO Stevenhao,然后是首席产品官Walden Yan。此前,Hao 曾在Scale AI 担任高级工程师,这是另一家专注于训练人工智能系统的高估值初创公司。刚刚从哈佛大学退学的严要求对这件事保密,因为他还没有生父母的气。

27 岁的吴是尼尔·吴(Neal Wu) 的兄弟,尼尔·吴也在Cognition AI 工作。兄弟俩都拥有非常出色的编程能力。 Scott Wu 表示,他从9 岁就开始编程,很喜欢将想法变成现实的感觉。

还有人挖出了Scott Wu 14岁时参加MathCounts比赛的视频。在比赛中,Scott Wu 没有太多思考时间就回答了Math Counts 问题。主持人读完问题后,吴斯科特可以立即报告答案。

此外,创始人透露,团队共有10枚IOI金牌。

Scott Wu表示,这样的背景也让这家年轻的初创公司在AI市场上具有优势。他解释道,“引导AI成为程序员,实际上是一个非常深奥的算法问题,需要系统做出复杂的决策,把握接下来的多个步骤,并正确判断选择哪条路线。事实上,我们一直在脑子里推演这类问题,现在终于有机会将相关想法编码到AI系统中。”

Cognition AI对Devin的设计亮点之一是该公司在计算机推理能力方面的突破。从人工智能的角度来看,推理意味着系统不仅能够预测句子中的下一个单词或一行代码中的下一个片段,而且还能够像人类一样思考并找到合理的解决方案。问题。 AI Land认为推理是推动行业发展的下一波趋势,许多初创企业也着力展示自己在该领域的技术能力。

在很多方面,Devin 似乎确实远远领先于其他编码助手。用户可以要求它直接处理自然语言命令,Devin 就会正确理解并完成工作。在运行时,Devin 还会显示其开发计划、当前使用的命令和代码。如果出现问题,开发人员可以输入进一步的提示来指导AI 解决问题,而Devin 则继续调整并接收反馈。目前大多数人工智能系统在如此长时间的工作中都很难保持连续性和任务焦点,但德文可以一次性完成数百甚至数千个任务而不会偏离轨道。

在一些网友的亲身测试中,Devin确实能够在5到10分钟内从头开始建立一个网站,并且他还可以在大致相同的时间内开发一个基于网络的Pong游戏。虽然这期间多次需要人类进行干预,利用提示来改善游戏中球运动的物理轨迹,也对网站的外观进行一些调整,但德文始终保持着礼貌的态度,成功地迎接了新的挑战。测试人员的要求。

塞拉斯·阿尔贝蒂(Silas Alberti) 是一名计算机科学家,也是另一家秘密人工智能初创公司的联合创始人。他体验了德文并称赞它代表了技术的飞跃。对他来说,德文的行为不像一个编写代码的人工智能助手,而更像一个处理手头任务的真人。 “感觉非常不同。Devin 是一个可以为我们做事的自治系统。”

Alberti 还提到Devin 擅长项目原型设计、修复错误以及以图形方式显示复杂数据。 “大多数其他助手在四五步后就会中断,但德文能够轻松地在整个工作流程中保持思路。 ”

认知人工智能如何在如此短的时间内取得如此重大的突破仍然是一个谜,至少对外界来说是这样。 Wu 拒绝透露有关该技术的太多底层细节,仅表示他的团队已经找到了一种独特的方法,将OpenAI GPT-4 等大型语言模型(LLM) 与强化学习技术相结合。 “很明显,人工智能领域的人们已经在这方面努力了很长时间。正确的道路在很大程度上取决于模型和方法,尤其是如何让各个要素恰到好处地协同工作。”

Cognition AI 并不是唯一一家致力于构建人工智能编码工具的公司。就在上个月,初创公司Magic AI 从Daniel Gross 和Nat Friedman 等风险投资团队筹集了超过1 亿美元,旨在打造Gross 所说的“超级软件工程师”。与OpenAI、Anthropic等基于大型语言模型构建的公司不同,Magic AI选择从头开始设计自己的模型和其他底层技术,希望确保业务独立性。该初创公司尚未展示其人工智能系统,因此很难将其与Cognition AI 的产品直接进行比较。

Cognition AI拒绝透露Devin对其他现有大型语言模型的依赖程度,因此我们甚至无法在具体实现方法上对两者进行比较。

无论来自哪家公司,软件开发人员都想知道这些新技术是否会威胁到他们的生计,而行业观察人士则好奇人工智能的介入是否能够颠覆整个软件开发体系。我们有理由相信,这些编程助手可以将开发者从繁琐、重复的任务中解放出来,让他们专注于更具创造性的工作。此外,脑子里有无穷无尽的想法但缺乏编程技能的朋友可以用它来开发自己的网站、服务和应用程序。但话虽如此,这些编程助手也可能会消除大量高薪开发人员的工作岗位,彻底重塑整个软件行业的商业逻辑。

对于参与人工智能的制造商及其投资者来说,认知人工智能的出现并不一定是主导地位的标志。我们正处于探索人工智能编码能力和技能将如何影响传统程序员的早期阶段。可以想象,这将是一个充满激情和突破的活跃领域,人工智能编码以其光明的前景和巨大的想象力吸引了世界上许多最优秀、最聪明的头脑。

原文链接:

中国90后团队真的是来抢程序员饭碗的吗?推出全球第一位AI超级工程师:拥有全栈技能,一个命令即可完成整个开发流程_生成式AI_Tina_InfoQ精选文章

热门文章