基本能力
产品定位
MCP Webscan Server 是一个用于网页内容扫描和分析的工具,旨在帮助用户从网页中提取和整理信息。
核心功能
- Page Fetching: 将网页转换为Markdown格式以便于分析
- Link Extraction: 从网页中提取并分析链接
- Site Crawling: 递归爬取网站以发现内容
- Link Checking: 检查网页上的损坏链接
- Pattern Matching: 查找符合特定模式的URL
- Sitemap Generation: 为网站生成XML站点地图
适用场景
- 网页内容分析
- 网站链接检查
- 网站地图生成
- 网页数据抓取
工具列表
fetch-page
- 抓取网页并将其转换为Markdown
- 参数:
url
(必填),selector
(可选) extract-links
- 从网页中提取所有链接及其文本
- 参数:
url
(必填),baseUrl
(可选),limit
(可选,默认100) crawl-site
- 递归爬取网站到指定深度
- 参数:
url
(必填),maxDepth
(可选,默认2) check-links
- 检查页面上的损坏链接
- 参数:
url
(必填) find-patterns
- 查找符合特定模式的URL
- 参数:
url
(必填),pattern
(必填) generate-site-map
- 通过爬取生成简单的XML站点地图
- 参数:
url
(必填),maxDepth
(可选,默认2),limit
(可选,默认1000)
常见问题解答
- 错误处理:服务器实现了全面的错误处理,包括无效参数、网络错误、内容解析错误和URL验证。
使用教程
使用依赖
- Node.js >= 18
- npm
安装教程
通过Smithery安装
bash
npx -y @smithery/cli install mcp-server-webscan --client claude
手动安装
bash
git clone <repository-url>
cd mcp-server-webscan
npm install
npm run build
调试方式
启动服务器
bash
npm start
开发模式
bash
npm run dev
构建项目
bash
npm run build