浏览器自动化一直是AI Agent的”最后一公里”难题。让AI能像人类一样点击按钮、填写表单、抓取数据,技术上远比想象中复杂。2026年3月,Y Combinator孵化的Skyvern发布MCP(Model Context Protocol),号称能让Claude Code和OpenClaw自动操作任何网站——无需预定义XPath,无需针对每个网站写代码。这个开源工具真的能改变游戏规则吗?
一、浏览器自动化的痛点
为什么浏览器自动化这么难?因为现代网站太复杂了。
传统方案的局限
- XPath/CSS选择器:网站一改版就失效,维护成本高
- 录制回放:对动态内容、弹窗、验证码无能为力
- API接口:大多数网站不提供API,或者API功能有限
现有的RPA(机器人流程自动化)工具,如UiPath、Automation Anywhere,虽然功能强大,但价格昂贵、学习曲线陡峭,不适合个人开发者和小团队。
二、Skyvern是什么?
Skyvern是一个开源的AI浏览器自动化工具,核心理念是:让AI像人类一样”看懂”网页,而不是依赖固定的选择器。
核心技术
Skyvern结合了三种技术:
- Playwright:微软开源的浏览器自动化框架,负责底层操作
- 大语言模型:理解页面结构、决策下一步操作
- 视觉识别:截图分析,定位可交互元素
举个栗子:你想让AI在亚马逊上买一本书。传统方式需要预先定义搜索框、加入购物车按钮的XPath。Skyvern的方式是:AI看到页面,理解”这是搜索框”,”这是加入购物车按钮”,然后自主操作。
三、MCP协议:连接AI Agent和浏览器
这次发布的MCP(Model Context Protocol)是重点。它是一个开放协议,让不同的AI Agent都能接入Skyvern的能力。
支持的平台
- Claude Code:Anthropic的AI编程助手
- OpenClaw:开源AI助手平台
- 其他MCP兼容的Agent:协议是开放的,任何人都可以接入
如果你还不了解OpenClaw,可以参考OpenClaw:真正能做事情的 AI 助手,以及Sam Altman 眼中的 OpenClaw。
这意味着什么?
对于OpenClaw用户来说,以后可以直接让AI帮你:
- 自动填写各种申请表单
- 从政府网站抓取数据
- 批量预订机票酒店
- 监控电商网站价格变化
- 自动化软件测试
关于AI Agent的思考,可以参考为什么我坚决反对”多智能体混战”?
四、实际应用案例
Skyvern官方展示了一些典型场景:
1. 自动发票检索
企业财务部门需要从多个供应商网站下载发票。每个网站的界面都不同,传统RPA需要为每个网站写脚本。Skyvern的AI能自适应不同网站,自动完成登录、导航、下载。
2. 政府表单填写
各种政府申报表格,字段多、规则复杂。Skyvern能理解表单要求,自动填写并提交。
3. 医疗系统交互
医院、保险公司的系统通常老旧、没有API。Skyvern可以作为中间层,让新应用能与这些系统交互。
五、开源与商业模式
Skyvern是开源的(GitHub上可以找到),采用Apache 2.0协议。这意味着:
- 个人开发者可以免费使用
- 企业可以自建部署,数据不出内网
- 社区可以贡献代码,扩展功能
Skyvern的商业模式是提供托管云服务,按使用量收费。对于不想自己维护基础设施的用户,这是更省心的选择。
六、局限与挑战
虽然前景广阔,但Skyvern也有明显的局限:
- 速度:AI决策需要时间,比固定脚本慢
- 成本:调用大模型API需要费用,高频使用成本不低
- 验证码:遇到复杂验证码仍需要人工介入
- 安全性:让AI自动操作网银、支付平台,风险如何控制?
结语
Skyvern MCP的发布,标志着浏览器自动化进入了”AI原生”时代。不再是人工写脚本,而是让AI自己学习、自己决策。
对于OpenClaw这样的AI助手平台,Skyvern的能力补齐了”能做事”的最后一块拼图。未来的AI Agent,不仅能聊天,还能真正操作软件、完成任务。
也许不久的将来,”帮我订一张去纽约的机票”这样的指令,真的能一键完成了。