AI 驱动UI自动化方案使用说明
一、本文目的
这篇文章主要是给大家介绍一下使用 AI 驱动 UI 自动化的几种方案对比,方便大家选择学习;目前为止,已经出了下面这几种方案,分别有
方案 1:基于
playwright-cli + Skills实现无代码 UI 自动化方案 2:基于
Midscene.js视觉驱动的 UI 自动化实践方案 3:早期
Playwright MCP规则驱动无代码自动化方案方案 4:
Playwright 框架 + MCP代码生成式自动化方案
各方案的核心特点与适用场景梳理如下:
方案 1(推荐优先学习):CLI 驱动的无代码闭环方案
是最近刚出的,主要是通过 CLI 的方式,先使用 skill基于目标 URL 生成页面快照与无障碍树,再据此生成可直接执行的 CLI 脚本用例;执行阶段则通过专用 Skill 实现异常场景处理,包括简易验证码识别、元素定位自愈、脚本自愈等能力,具备较强的稳定性与可落地性,是当前阶段的优选路径。
方案 2:视觉识别驱动的自动化方案
以字节开源的 Midscene.js 为核心,通过视觉识别能力直接解析并执行用例。该方案无需依赖传统的元素定位,但存在 token 消耗较高、执行耗时较长的问题,适合作为 UI 自动化的补充实践路径进行了解与探索。
- 方案 3:早期 Playwright MCP 规则驱动方案
这是一套早期的规则驱动无代码方案,依赖固定规则、MCP 协议与 CSS 选择器等方式生成执行计划,再通过 Playwright MCP 执行。整体技术路径相对陈旧,可作为技术演进背景进行简单了解。
- 方案 4:MCP 辅助代码生成的进阶方案
这个方案是方案 3 的加强版,使用 MCP+规则方式,通过 Playwright 识别页面元素,生成 Page类、pytest代码,之后实现 UI 自动化的实现,简而言之就是辅助 UI 自动化代码编写,本方案需要一定的代码基础,但是和 方案 1和方案 3 相比,则具备较强的灵活性,可以使用代码的方式,去适配各种复杂场景,如:数据库校验、复杂断言,OCR 接入等,
总结:
