微软推出全新 Windows Agent Arena 基准框架,用于评估生成式 AI Agents 在 Windows PC 上的性能。

Windows Agent Arena 基准框架

微软表示该基准框架 AI Agents 使用主流 Windows 应用方面的能力和速度,其中包括 Microsoft Edge 和Google Chrome 浏览器,Visual Studio Code 等编程应用,记事本、时钟和画图等预装 Windows 应用,VLC 等主流媒体播放器。

图片

图片

图片

微软博文内容如下:

微软采用 OSWorld 框架,构建了横跨代表性领域的 150 多项多样化 Windows 任务,这些任务要求代理具备规划、屏幕理解和工具使用的能力。

微软基准测试同样具有可扩展性,能够在 Azure 上无缝并行化,从而在最短 20 分钟内完成全面评估。

Navi

微软研究院也打造了自己的多模态 Agents Navi,并在 Windows Agent Arena 基准测试中对其进行了试验。

图片

它被要求根据特定文本提示执行任务,例如:“你能将我正在浏览的网页转换成 PDF 文件并放置在我的主屏幕上吗,就是那个桌面?”

结果显示,Navi 的平均任务成功率为 19.5%,相较于人类 74.5% 的表现评分,这一成绩仍显偏低。

图片

微软最近表示默认应用选择对于用户工作流、设备性能和便利性至关重要,还发布了一篇指南,详细介绍了如何选择系统上的默认应用并根据需要进行切换。 

微软表示:“自定义 Windows 中的默认程序和应用关联是一个简单的过程,可以提升您的计算体验。

例如,如果您是一名开发者,更喜欢使用特定的文本编辑器进行编码,那么将 .txt 文件的默认应用程序更改为该编辑器可以节省您的时间并简化您的工作流程。同样,将您的默认浏览器更改为您最常用的浏览器可以加快您的互联网任务。”

微软还提供了简单的指南,指导用户如何从设置中选择默认应用。作为示例,该公司使用了其浏览器 Edge 来演示该过程。

来源 | MSFT | ITHOME | 更新