通过 Chrome 插件快速体验

通过使用 Midscene.js Chrome 插件,你可以快速在任意网页上体验 Midscene 的主要功能,而无需编写任何代码。

该扩展与 npm @midscene/web 包共享了相同的代码,因此你可以将其视为 Midscene 的一个 Playground 或调试工具。

Prompt : Sign up for Github, you need to pass the form validation, but don't actually click.

查看此次任务的完整报告:report.html

安装 Chrome 扩展

前往 Chrome 扩展商店安装 Midscene 扩展:Midscene

启动扩展(可能默认折叠在 Chrome 扩展列表中),你应该能在浏览器右侧看到名为 “Midscene” 的侧边栏。

配置 AI 模型服务

将你的模型配置写入环境变量,可参考 模型策略 了解更多细节。

export MIDSCENE_MODEL_BASE_URL="https://替换为你的模型服务地址/v1"
export MIDSCENE_MODEL_API_KEY="替换为你的 API Key"
export MIDSCENE_MODEL_NAME="替换为你的模型名称"
export MIDSCENE_MODEL_FAMILY="替换为你的模型系列"

更多配置信息请参考 模型策略模型配置

开始体验

配置完成后,你可以立即开始体验 Midscene。它提供了多个关键操作 Tab:

  • Act: 与网页进行交互,这就是自动规划(Auto Planning),对应于 aiAct 方法。比如
在搜索框中输入 Midscene,执行搜索,跳转到第一条结果
填写完整的注册表单,注意主要让所有字段通过校验
  • Query: 从界面中提取 JSON 结构的数据,对应于 aiQuery 方法。

类似的方法还有 aiBoolean(), aiNumber(), aiString(),用于直接提取布尔值、数字和字符串。

提取页面中的用户 ID,返回 { id: string } 结构的 JSON 数据
  • Assert: 理解页面,进行断言,如果不满足则抛出错误,对应于 aiAssert 方法。
页面上存在一个登录按钮,它的下方有一个用户协议的链接
  • Tap: 在某个元素上点击,这就是即时操作(Instant Action),对应于 aiTap 方法。
点击登录按钮

关于自动规划(Auto Planning)和即时操作(Instant Action)的区别,请参考 API 文档。

FAQ

是否可以手动安装 Chrome 扩展?

如果无法访问 Chrome 扩展商店,可以从 Releases 下载安装包手动安装。但不推荐使用这种方式,因为无法获得自动更新。

插件运行失败,提示 'Cannot access a chrome-extension:// URL of different extension'

这一般是与其他插件冲突所致,如页面已经被其他插件注入了 <iframe /><script />

找到可疑插件:

  1. 打开页面的调试器,找到被其他插件注入的 <iframe /><script />,一般 URL 是 chrome-extension://{这串就是ID}/... 格式,复制其 ID。
  2. 打开 chrome://extensions/,用 cmd+f 找到相同 ID 的插件,禁用它。
  3. 刷新页面,再次尝试。