基本能力
产品定位
Crawl4ai MCP Server 是一个专为LLM设计的网页爬取服务,能够高效地抓取网页内容并将其转换为Markdown格式,便于后续处理和分析。
核心功能
- 网页爬取:支持多URL同时爬取,返回带有引用的Markdown内容。
- 自动重试:在遇到网络问题时自动重试,提高爬取成功率。
- 用户代理切换:避免被目标网站屏蔽。
- 支持认证:可选配置认证令牌以访问需要认证的API服务。
适用场景
- 数据采集:用于收集和分析网页数据。
- 内容生成:为LLM提供结构化的网页内容输入。
- 开发测试:在开发过程中快速获取网页内容进行测试。
工具列表
crawl_urls
:爬取指定URL列表的网页内容,返回Markdown格式数据。- 参数:
urls
(必需):要爬取的URL列表。
常见问题解答
- URL无效或不可访问:确保提供的URL是有效的且可访问。
- 认证失败:检查认证令牌是否有效。
- 网络连接问题:确认与crawl4ai API服务的网络连接正常。
- 超时错误:尝试减少每次请求的URL数量。
- 被网站屏蔽:服务会自动处理重试和用户代理切换。
使用教程
使用依赖
- Node.js
- crawl4ai实例访问权限:https://docs.crawl4ai.com/core/docker-deployment/
安装教程
- 克隆仓库:
bash
git clone https://github.com/Kirill812/crawl4ai-mcp-server.git
cd crawl4ai-mcp-server - 安装依赖:
bash
npm install - 构建服务:
bash
npm run build - 配置环境变量:
json
{
"mcpServers": {
"crawl4ai": {
"command": "node",
"args": [
"/path/to/crawl4ai-mcp-server/build/index.js"
],
"env": {
"CRAWL4AI_API_URL": "http://127.0.0.1:11235",
"CRAWL4AI_AUTH_TOKEN": "your-auth-token"
}
}
}
}
调试方式
- 开发模式下自动重建:
bash
npm run watch