基本能力
产品定位
mcp-server-fetch-python 是一个专门用于网页内容抓取和转换的工具服务器,能够处理各种格式的网页内容,包括静态和动态渲染的内容,以及媒体文件。
核心功能
- get-raw-text:直接从 URL 提取原始文本内容,无需浏览器渲染。
-
适用于结构化数据格式或需要快速直接访问的场景。
-
get-rendered-html:使用无头浏览器获取完全渲染的 HTML 内容。
-
适用于现代 Web 应用和单页应用(SPA),需要 JavaScript 渲染的场景。
-
get-markdown:将网页内容转换为格式良好的 Markdown。
-
保留结构元素,提供干净、可读的文本输出。
-
get-markdown-from-media:从媒体文件(图像、视频)中提取内容。
- 使用计算机视觉和 OCR 进行视觉内容分析。
- 需要设置 OPENAI_API_KEY 环境变量。
适用场景
- 数据抓取:从网页中提取结构化或非结构化数据。
- 内容转换:将网页内容转换为 Markdown 或其他格式。
- 媒体分析:从图像或视频中提取文本内容。
- 自动化测试:用于测试动态渲染的网页应用。
工具列表
- get-raw-text:提取原始文本内容。
- get-rendered-html:获取渲染后的 HTML 内容。
- get-markdown:转换为 Markdown 格式。
- get-markdown-from-media:从媒体文件中提取内容。
常见问题解答
- OPENAI_API_KEY 未设置:使用
get-markdown-from-media
工具时需要设置 OPENAI_API_KEY 环境变量。 - 字符编码问题:可以设置 PYTHONIOENCODING 为 "utf-8" 来解决。
使用教程
使用依赖
- 环境变量配置:
- OPENAI_API_KEY:用于
get-markdown-from-media
工具。 - PYTHONIOENCODING:设置为 "utf-8" 解决字符编码问题。
- MODEL_NAME:指定使用的模型名称,默认为 "gpt-4o"。
安装教程
-
克隆仓库:
powershell
git clone https://github.com/tatn/mcp-server-fetch-python.git
cd mcp-server-fetch-python
uv sync
uv build -
配置 Claude Desktop:
- 在配置文件中添加以下内容:
json
"mcpServers": {
"mcp-server-fetch-python": {
"command": "uv",
"args": [
"--directory",
"path\\to\\mcp-server-fetch-python",
"run",
"mcp-server-fetch-python"
]
}
}
调试方式
- 使用 MCP Inspector:
bash
npx @modelcontextprotocol/inspector uvx mcp-server-fetch-python
bash
npx @modelcontextprotocol/inspector uv --directory path\\to\\mcp-server-fetch-python run mcp-server-fetch-python