基本能力
产品定位
Fetcher MCP 是一个高效的网页内容抓取工具,特别适合需要处理动态内容和现代网页应用的场景。
核心功能
- JavaScript 支持:使用 Playwright 执行 JavaScript,处理动态内容。
- 智能内容提取:内置 Readability 算法,自动提取网页主要内容。
- 灵活的输出格式:支持 HTML 和 Markdown 输出。
- 并行处理:支持批量抓取多个 URL。
- 资源优化:自动屏蔽不必要的资源(如图片、样式表等)。
- 错误处理:全面的错误处理和日志记录。
- 可配置参数:支持超时、内容提取和输出格式的细粒度控制。
适用场景
- 批量抓取动态网页内容。
- 需要去除广告和导航等非必要元素的网页内容提取。
- 需要将网页内容转换为 Markdown 或 HTML 格式的应用。
工具列表
fetch_url
:从指定 URL 抓取网页内容。- 支持智能提取主内容并转换为 Markdown。
- 支持多种参数配置,如超时、内容提取等。
fetch_urls
:批量并行抓取多个 URL 的内容。- 使用多标签并行抓取提高性能。
- 返回结果清晰分隔各网页内容。
常见问题解答
- 处理反爬机制:可通过增加超时或等待完整加载来应对。
- 调试模式:使用
--debug
参数启动调试模式,显示浏览器窗口。 - 认证:在调试模式下可手动登录网站进行认证。
使用教程
使用依赖
安装 Playwright 浏览器:
bash
npx playwright install chromium
安装教程
直接运行:
bash
npx -y fetcher-mcp
调试方式
启用调试模式:
bash
npx -y fetcher-mcp --debug
开发相关
安装依赖:
bash
npm install
安装 Playwright 浏览器:
bash
npm run install-browser
构建服务器:
bash
npm run build
调试:
bash
npm run inspector
或
bash
node build/index.js --debug