omniparser-autogui-mcp - MCP服务,MCP服务器,MCP教程

基本能力

产品定位

omniparser-autogui-mcp 是一个自动化 GUI 操作的服务,主要用于屏幕内容分析和自动化操作,提升开发效率。

核心功能

  1. 屏幕分析:利用 OmniParser 技术分析屏幕内容。
  2. 自动化操作:自动操作图形用户界面(GUI)。
  3. 多平台支持:主要在 Windows 平台上运行,支持通过环境变量配置其他平台。
  4. 灵活配置:支持多种环境变量配置,如指定窗口名称、OmniParser 后端加载等。

适用场景

  1. 浏览器自动化:如自动搜索、操作浏览器界面。
  2. 界面测试:自动化测试图形用户界面。
  3. 开发效率工具:通过自动化操作减少手动操作时间。

工具列表

  1. OmniParser:用于屏幕内容分析的核心工具。
  2. uv:用于运行和管理服务的工具。

常见问题解答

  1. 许可证问题:OmniParser 的模型权重可能有不同的许可证,需注意合规使用。
  2. 跨平台问题:在非 Windows 平台上,需使用 export 替代 set 设置环境变量。
  3. 客户端兼容性:如与其他客户端(如 LibreChat)不兼容,可设置 OMNI_PARSER_BACKEND_LOAD=1

使用教程

使用依赖

  1. 克隆仓库并安装依赖:
    bash
    git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
    cd omniparser-autogui-mcp
    uv sync
  2. 设置环境变量(Windows):
    bash
    set OCR_LANG=en

    (非 Windows 平台使用 export OCR_LANG=en

安装教程

  1. 下载模型:
    bash
    uv run download_models.py
  2. 配置 claude_desktop_config.json,添加以下内容:
    json
    {
    "mcpServers": {
    "omniparser_autogui_mcp": {
    "command": "uv",
    "args": [
    "--directory",
    "D:\\CLONED_PATH\\omniparser-autogui-mcp",
    "run",
    "omniparser-autogui-mcp"
    ],
    "env": {
    "PYTHONIOENCODING": "utf-8",
    "OCR_LANG": "en"
    }
    }
    }
    }

    (替换 D:\\CLONED_PATH\\omniparser-autogui-mcp 为实际克隆路径)

调试方式

  1. 启动服务:
    bash
    uv run omniparser-autogui-mcp
  2. 如需使用 SSE 通信,设置以下环境变量:
    bash
    set SSE_HOST=127.0.0.1
    set SSE_PORT=8000
  3. 如需指定操作窗口,设置 TARGET_WINDOW_NAME 环境变量。

点击访问

搜索工具

MCP Servers - MCP服务,MCP服务器,MCP教程

2025-4-29 12:32:21

搜索工具

MCP PowerShell Exec Server - MCP服务,MCP服务器,MCP教程

2025-4-29 12:32:29

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索