Anthropic 最近推出了一项公开测试的革命性功能,名为「computer use」。这项功能的核心在于通过 API 教会 AI 模型 Claude 如何像真人一样使用电脑。这意味着 Claude 不仅可以查看屏幕内容,还能移动光标、点击按钮以及打字等。简而言之,Claude 现在能够运用人类设计的标准工具和软件了。

释放开发者的创造力

对于开发者来说,这无疑是一个巨大的进步。现在他们可以利用 Claude 来自动处理那些繁琐且重复的任务,比如填写表格或整理数据。不仅如此,Claude 还能帮助进行更复杂的任务,例如研究工作。为了让 Claude 掌握这些技能,Anthropic 开发了一个特殊的 API,它允许 Claude 感知并直接与计算机界面互动。

具体实现方式是这样的:当开发者想要 Claude 完成某项任务时(例如,“用我电脑上的数据,结合网上信息填个表”),他们会将这个请求发送给 Claude。接着,Claude 会将其转换为具体的计算机指令——检查本地文件、启动浏览器、查找相关信息,并最终完成表格填写过程。这种方式极大地简化了人机交互的过程,使得机器可以更加智能地协助人们完成日常工作。

OSWorld 基准测试中的表现

为了验证 Claude 在真实世界中的实际应用能力,Anthropic 使用了一个名为 OSWorld 的基准测试平台。这是一个专为评估多模态智能体在执行开放式任务时的表现而设计的工具,特别是它们是否能够像人类那样自如地操作计算机。

Claude的新技能:像人一样操作电脑

根据最新发布的测试结果,在仅有截图作为输入的情况下,Claude 3.5 Sonnet 获得了 14.9% 的得分,这一成绩远高于排名第二的模型所获得的 7.8%。而在允许采取更多步骤以完成任务的条件下,Claude 的得分进一步提升到了 22.0%。这些数字表明 Claude 在理解和执行复杂任务方面已经达到了相当高的水平。

对未来的展望

随着技术不断进步,我们可以预见未来会有越来越多类似 Claude 这样的 AI 模型被广泛应用于各个领域。从个人助手到企业级解决方案,AI 将成为我们生活中不可或缺的一部分。尤其是对于那些需要大量手工操作的工作来说,有了 Claude 这样的助手后,工作效率将得到极大提高,同时也能减轻人们的负担,让人们可以把更多时间投入到创造性工作中去。

总之,Anthropic 此次推出的「computer use」功能不仅标志着 AI 技术取得了重要突破,也为广大用户提供了前所未有的便利。随着时间推移,相信我们会见证更多令人兴奋的应用案例出现,让我们的生活变得更加美好。