基本能力
产品定位
omniparser-autogui-mcp 是一个自动化 GUI 操作的服务,主要用于屏幕内容分析和自动化操作,提升开发效率。
核心功能
- 屏幕分析:利用 OmniParser 技术分析屏幕内容。
- 自动化操作:自动操作图形用户界面(GUI)。
- 多平台支持:主要在 Windows 平台上运行,支持通过环境变量配置其他平台。
- 灵活配置:支持多种环境变量配置,如指定窗口名称、OmniParser 后端加载等。
适用场景
- 浏览器自动化:如自动搜索、操作浏览器界面。
- 界面测试:自动化测试图形用户界面。
- 开发效率工具:通过自动化操作减少手动操作时间。
工具列表
- OmniParser:用于屏幕内容分析的核心工具。
- uv:用于运行和管理服务的工具。
常见问题解答
- 许可证问题:OmniParser 的模型权重可能有不同的许可证,需注意合规使用。
- 跨平台问题:在非 Windows 平台上,需使用
export
替代set
设置环境变量。 - 客户端兼容性:如与其他客户端(如 LibreChat)不兼容,可设置
OMNI_PARSER_BACKEND_LOAD=1
。
使用教程
使用依赖
- 克隆仓库并安装依赖:
bash
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync - 设置环境变量(Windows):
bash
set OCR_LANG=en
(非 Windows 平台使用export OCR_LANG=en
)
安装教程
- 下载模型:
bash
uv run download_models.py - 配置
claude_desktop_config.json
,添加以下内容:
json
{
"mcpServers": {
"omniparser_autogui_mcp": {
"command": "uv",
"args": [
"--directory",
"D:\\CLONED_PATH\\omniparser-autogui-mcp",
"run",
"omniparser-autogui-mcp"
],
"env": {
"PYTHONIOENCODING": "utf-8",
"OCR_LANG": "en"
}
}
}
}
(替换D:\\CLONED_PATH\\omniparser-autogui-mcp
为实际克隆路径)
调试方式
- 启动服务:
bash
uv run omniparser-autogui-mcp - 如需使用 SSE 通信,设置以下环境变量:
bash
set SSE_HOST=127.0.0.1
set SSE_PORT=8000 - 如需指定操作窗口,设置
TARGET_WINDOW_NAME
环境变量。