基本能力
产品定位
MCPDocSearch 是一个专为开发者设计的文档爬取和搜索工具集,通过 MCP 服务器提供高效的文档搜索功能。
核心功能
- Web Crawler (
crawler_cli
): - 从给定 URL 开始爬取网站内容。
- 可配置爬取深度、URL 模式(包含/排除)、内容类型等。
- 生成统一的 Markdown 文件并保存到
./storage/
目录。 - MCP Server (
mcp_server
): - 加载并解析
./storage/
中的 Markdown 文件。 - 将文档分块并生成向量嵌入。
- 提供缓存机制以加速后续启动。
- 通过
fastmcp
提供以下工具:list_documents
:列出可用的文档。get_document_headings
:获取文档的标题结构。search_documentation
:基于语义搜索文档内容。
适用场景
- 需要快速访问和搜索大量文档的开发团队。
- 需要将文档内容集成到开发工具(如 Cursor)中的场景。
- 需要自动化爬取和整理网站文档的场景。
工具列表
crawler_cli
:爬取网站并生成 Markdown 文档。mcp_server
:提供文档搜索服务的 MCP 服务器。
常见问题解答
- 嵌入时间:首次启动或文档变更时,生成嵌入可能需要较长时间,具体取决于硬件和文档大小。
- 缓存机制:服务器会缓存处理后的文档分块和嵌入,后续启动会更快。
使用教程
使用依赖
- 安装
uv
:
bash
curl -LsSf https://astral.sh/uv/install.sh | sh
安装教程
- 克隆仓库:
bash
git clone https://github.com/alizdavoodi/MCPDocSearch.git
cd MCPDocSearch - 安装依赖:
bash
uv sync
调试方式
- 运行爬虫:
bash
uv run python crawl.py https://docs.example.com - 启动 MCP 服务器:
bash
python -m mcp_server.main - 配置 Cursor:
- 创建
.cursor/mcp.json
文件并配置服务器路径。 - 重启 Cursor 以启用搜索服务。