基本能力
产品定位
PyMCPAutoGUI 是一个 GUI 自动化工具,通过 MCP 协议为 AI 代理提供与桌面应用程序交互的能力。
核心功能
- 鼠标控制:移动、点击、拖动、滚动等。
- 键盘控制:输入文本、按键、组合键等。
- 屏幕截图:捕获屏幕图像并定位图像。
- 窗口管理:控制窗口位置、大小、状态(最小化、最大化等)。
- 用户交互:显示警告、确认和提示框。
适用场景
- 自动化重复的 GUI 任务。
- GUI 测试和验证。
- 构建 AI 助手,实现与桌面应用程序的交互。
工具列表
- 鼠标工具:
move_to
,click
,drag_to
,scroll
等。 - 键盘工具:
write
,press
,hotkey
等。 - 截图工具:
screenshot
,locate_on_screen
等。 - 窗口工具:
get_all_titles
,activate_window
,minimize_window
等。 - 对话框工具:
alert
,confirm
,prompt
等。
常见问题解答
- 依赖问题:确保安装
pyautogui
和pygetwindow
的系统依赖。 - 连接问题:确保 MCP 客户端配置正确,且服务器正在运行。
使用教程
使用依赖
安装 pyautogui
和 pygetwindow
的系统依赖:
```bash
Linux (Ubuntu/Debian)
sudo apt-get install scrot
macOS
brew install scrot
```
安装教程
- 创建并激活虚拟环境:
```bash
python -m venv .venv
Windows PowerShell
.venv\Scripts\Activate.ps1
macOS / Linux bash
source .venv/bin/activate
2. 安装 PyMCPAutoGUI:
bash
pip install pymcpautogui
```
调试方式
- 启动 MCP 服务器:
bash
python -m pymcpautogui.server - 检查服务器输出:
INFO: Uvicorn running on http://127.0.0.1:6789 (Press CTRL+C to quit)
- 在 MCP 客户端(如 Cursor)中测试命令:
@PyMCPAutoGUI move_to(x=100, y=200)