AI 驱动UI自动化方案使用说明

一、本文目的

这篇文章主要是给大家介绍一下使用 AI 驱动 UI 自动化的几种方案对比，方便大家选择学习；目前为止，已经出了下面这几种方案，分别有

方案 1：基于 playwright-cli + Skills 实现无代码 UI 自动化
方案 2：基于 Midscene.js 视觉驱动的 UI 自动化实践
方案 3：早期 Playwright MCP 规则驱动无代码自动化方案
方案 4：Playwright 框架 + MCP 代码生成式自动化方案

各方案的核心特点与适用场景梳理如下：

方案 1（推荐优先学习）：CLI 驱动的无代码闭环方案
是最近刚出的，主要是通过 CLI 的方式，先使用 skill基于目标 URL 生成页面快照与无障碍树，再据此生成可直接执行的 CLI 脚本用例；执行阶段则通过专用 Skill 实现异常场景处理，包括简易验证码识别、元素定位自愈、脚本自愈等能力，具备较强的稳定性与可落地性，是当前阶段的优选路径。
方案 2：视觉识别驱动的自动化方案

以字节开源的 Midscene.js 为核心，通过视觉识别能力直接解析并执行用例。该方案无需依赖传统的元素定位，但存在 token 消耗较高、执行耗时较长的问题，适合作为 UI 自动化的补充实践路径进行了解与探索。

方案 3：早期 Playwright MCP 规则驱动方案

这是一套早期的规则驱动无代码方案，依赖固定规则、MCP 协议与 CSS 选择器等方式生成执行计划，再通过 Playwright MCP 执行。整体技术路径相对陈旧，可作为技术演进背景进行简单了解。

方案 4：MCP 辅助代码生成的进阶方案

这个方案是方案 3 的加强版，使用 MCP+规则方式，通过 Playwright 识别页面元素，生成 Page类、pytest代码，之后实现 UI 自动化的实现，简而言之就是辅助 UI 自动化代码编写，本方案需要一定的代码基础，但是和方案 1和方案 3 相比，则具备较强的灵活性，可以使用代码的方式，去适配各种复杂场景，如：数据库校验、复杂断言，OCR 接入等，

总结：