1.Midscene.js MCP安装与配置
之前我们讲过,playwright mcp 实现UI 自动化的方案,playwright 一般是通过 DOM 树去解析元素的,之后有些同学提到 midscene,好奇 midscene.js是什么?以及能够怎么运用到UI自动化测试里面。
简单介绍一下:Midscene.js 是字节跳动 Web Infra 团队开源的 AI 驱动 UI 自动化框架
简单来说,它是视觉大模型,去识别图片,然后定位到元素,执行操作。
今天我们先来讲讲如何结合MCP 在 浏览器中进行使用,下一篇再讲下Midscene.js 在UI自动化测试方面的应用
在官网中,可以看到,midscene 是支持 4 种 MCP 的模式的,分别有浏览器、IOS、安卓、电脑桌面等,本文主要以浏览器为主,讲下基础使用
浏览器操作方式
1、安装谷歌插件
https://chromewebstore.google.com/detail/midscenejs/gbldofcpkknbggpkmbdaefngejllnief
2、大模型准备
这里注意要使用能够识别图片的多模态大模型,我们这里以通义千问 Qwen 2.5-VL 如果使用通义,则可以在阿里云百炼申请apikey
