基本能力
产品定位
Firecrawl MCP Server 是一个专注于网页数据抓取和处理的工具,旨在提供高效、可靠的网页内容提取和搜索功能。
核心功能
- 网页抓取:支持单 URL 和多 URL 批量抓取,包括 JavaScript 渲染的内容。
- 网页爬取:支持异步爬取,可设置最大深度和限制数量。
- 网页搜索:支持搜索并提取搜索结果的内容。
- 内容提取:使用 LLM 能力从网页中提取结构化信息。
- 批量处理:内置速率限制和并行处理,高效处理大量 URL。
- 自动重试:支持指数退避的自动重试机制。
- 信用监控:提供信用使用情况的监控和警告。
- 日志系统:全面的日志记录,包括操作状态、性能指标等。
适用场景
- 数据挖掘:从多个网页中提取结构化数据。
- 内容聚合:抓取和整合多个来源的内容。
- 市场研究:收集和分析竞争对手的网页数据。
- 学术研究:批量抓取和提取学术文章或数据。
工具列表
- Scrape Tool (
firecrawl_scrape
):从单个 URL 抓取内容。 - Batch Scrape Tool (
firecrawl_batch_scrape
):批量抓取多个 URL。 - Check Batch Status (
firecrawl_check_batch_status
):检查批量操作的状态。 - Search Tool (
firecrawl_search
):搜索网页并提取内容。 - Crawl Tool (
firecrawl_crawl
):异步爬取网页。 - Extract Tool (
firecrawl_extract
):使用 LLM 从网页中提取结构化信息。
常见问题解答
- 如何配置 API 密钥?:通过环境变量
FIRECRAWL_API_KEY
设置。 - 如何自定义重试行为?:通过环境变量如
FIRECRAWL_RETRY_MAX_ATTEMPTS
配置。 - 如何监控信用使用?:通过
FIRECRAWL_CREDIT_WARNING_THRESHOLD
和FIRECRAWL_CREDIT_CRITICAL_THRESHOLD
设置警告阈值。
使用教程
使用依赖
确保已安装 Node.js 和 npm。
安装教程
- 使用 npx 运行:
bash
env FIRECRAWL_API_KEY=fc-YOUR_API_KEY npx -y firecrawl-mcp - 手动安装:
bash
npm install -g firecrawl-mcp
调试方式
- 查看日志:运行服务后,查看控制台输出的日志信息。
- 测试工具:使用提供的工具(如
firecrawl_scrape
)测试功能是否正常。 - 检查环境变量:确保所有必要的环境变量已正确设置。
开发
```bash
安装依赖
npm install
构建
npm run build
运行测试
npm test
```