小智资讯百科 OpenClaw [工具] Skyvern MCP:让Claude Code和OpenClaw自动操作浏览器的开源神器

[工具] Skyvern MCP:让Claude Code和OpenClaw自动操作浏览器的开源神器

浏览器自动化一直是AI Agent的”最后一公里”难题。让AI能像人类一样点击按钮、填写表单、抓取数据,技术上远比想象中复杂。2026年3月,Y Combinator孵化的Skyvern发布MCP(Model Context Protocol),号称能让Claude Code和OpenClaw自动操作任何网站——无需预定义XPath,无需针对每个网站写代码。这个开源工具真的能改变游戏规则吗?

一、浏览器自动化的痛点

为什么浏览器自动化这么难?因为现代网站太复杂了。

传统方案的局限

  • XPath/CSS选择器:网站一改版就失效,维护成本高
  • 录制回放:对动态内容、弹窗、验证码无能为力
  • API接口:大多数网站不提供API,或者API功能有限

现有的RPA(机器人流程自动化)工具,如UiPath、Automation Anywhere,虽然功能强大,但价格昂贵、学习曲线陡峭,不适合个人开发者和小团队。

二、Skyvern是什么?

Skyvern是一个开源的AI浏览器自动化工具,核心理念是:让AI像人类一样”看懂”网页,而不是依赖固定的选择器。

核心技术

Skyvern结合了三种技术:

  • Playwright:微软开源的浏览器自动化框架,负责底层操作
  • 大语言模型:理解页面结构、决策下一步操作
  • 视觉识别:截图分析,定位可交互元素

举个栗子:你想让AI在亚马逊上买一本书。传统方式需要预先定义搜索框、加入购物车按钮的XPath。Skyvern的方式是:AI看到页面,理解”这是搜索框”,”这是加入购物车按钮”,然后自主操作。

三、MCP协议:连接AI Agent和浏览器

这次发布的MCP(Model Context Protocol)是重点。它是一个开放协议,让不同的AI Agent都能接入Skyvern的能力。

支持的平台

  • Claude Code:Anthropic的AI编程助手
  • OpenClaw:开源AI助手平台
  • 其他MCP兼容的Agent:协议是开放的,任何人都可以接入

如果你还不了解OpenClaw,可以参考OpenClaw:真正能做事情的 AI 助手,以及Sam Altman 眼中的 OpenClaw

这意味着什么?

对于OpenClaw用户来说,以后可以直接让AI帮你:

  • 自动填写各种申请表单
  • 从政府网站抓取数据
  • 批量预订机票酒店
  • 监控电商网站价格变化
  • 自动化软件测试

关于AI Agent的思考,可以参考为什么我坚决反对”多智能体混战”?

四、实际应用案例

Skyvern官方展示了一些典型场景:

1. 自动发票检索

企业财务部门需要从多个供应商网站下载发票。每个网站的界面都不同,传统RPA需要为每个网站写脚本。Skyvern的AI能自适应不同网站,自动完成登录、导航、下载。

2. 政府表单填写

各种政府申报表格,字段多、规则复杂。Skyvern能理解表单要求,自动填写并提交。

3. 医疗系统交互

医院、保险公司的系统通常老旧、没有API。Skyvern可以作为中间层,让新应用能与这些系统交互。

五、开源与商业模式

Skyvern是开源的(GitHub上可以找到),采用Apache 2.0协议。这意味着:

  • 个人开发者可以免费使用
  • 企业可以自建部署,数据不出内网
  • 社区可以贡献代码,扩展功能

Skyvern的商业模式是提供托管云服务,按使用量收费。对于不想自己维护基础设施的用户,这是更省心的选择。

六、局限与挑战

虽然前景广阔,但Skyvern也有明显的局限:

  • 速度:AI决策需要时间,比固定脚本慢
  • 成本:调用大模型API需要费用,高频使用成本不低
  • 验证码:遇到复杂验证码仍需要人工介入
  • 安全性:让AI自动操作网银、支付平台,风险如何控制?

结语

Skyvern MCP的发布,标志着浏览器自动化进入了”AI原生”时代。不再是人工写脚本,而是让AI自己学习、自己决策。

对于OpenClaw这样的AI助手平台,Skyvern的能力补齐了”能做事”的最后一块拼图。未来的AI Agent,不仅能聊天,还能真正操作软件、完成任务。

也许不久的将来,”帮我订一张去纽约的机票”这样的指令,真的能一键完成了。

上一篇
下一篇

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

返回顶部