iOS 自动化支持

Midscene 可以驱动 WebDriver 工具来支持 iOS 自动化。

由于适配了视觉模型方案,整个自动化过程可以适配任意的 App 技术栈,无论是 Native、Flutter 还是 React Native 构建的 App 或小程序都能使用。开发者只需面向最终效果调试 UI 自动化脚本即可。

iOS UI 自动化方案具备 Midscene 的全部特性:

  • 支持使用 Playground 进行零代码试用。
  • 支持 JavaScript SDK。
  • 支持使用 YAML 格式的自动化脚本与命令行工具。
  • 支持生成 HTML 报告回放所有操作路径。

案例展示

Prompt : 打开美团,帮我下单一杯 manner 超大杯冰美式咖啡,要加浓少冰喔,到结算页面让我确认

查看此次任务的完整报告:report.html

Prompt : Open Twitter and auto-like the first tweet by @midscene_ai

查看此次任务的完整报告:report.html

查看更多案例:showcases

在 Playground 中试用

借助 Playground,你无需编写任何代码即可体验 Midscene 的能力。

点击查看 iOS Playground 使用文档

关于 WebDriverAgent

WebDriver 是 W3C 制定的浏览器自动化标准协议,提供统一的 API 来控制不同的浏览器和应用。该协议定义了客户端与服务端之间的通信方式,使自动化工具能跨平台地操纵各种界面。

得益于 Appium 团队以及其他开源社区的努力,业界已经出现了多个优秀的库,将桌面端和移动端的操作转化为 WebDriver 协议,例如:

  • Appium —— 跨平台移动自动化框架
  • WebDriverAgent —— 专注于 iOS 设备自动化的服务
  • Selenium —— Web 浏览器自动化工具
  • WinAppDriver —— Windows 应用自动化工具

Midscene 适配 WebDriver 协议,这意味着开发者可以在任何支持 WebDriver 的设备上使用 AI 模型执行智能自动化操作。通过该设计,Midscene 不仅能完成点击、输入等传统操作,还可以:

  • 理解界面内容与上下文
  • 执行复杂的多步骤操作
  • 进行智能断言与验证
  • 提取并分析界面数据

在 iOS 平台上,Midscene 通过 WebDriverAgent 连接 iOS 设备,让你可以用自然语言描述来控制 iOS App 和系统。

下一步