基本能力
产品定位
MCP Webscan Server 是一个用于网页内容扫描和分析的工具,旨在帮助用户从网页中提取和整理信息。
核心功能
- Page Fetching: 将网页转换为Markdown格式以便于分析
- Link Extraction: 从网页中提取并分析链接
- Site Crawling: 递归爬取网站以发现内容
- Link Checking: 检查网页上的损坏链接
- Pattern Matching: 查找符合特定模式的URL
- Sitemap Generation: 为网站生成XML站点地图
适用场景
- 网页内容分析
- 网站链接检查
- 网站地图生成
- 网页数据抓取
工具列表
fetch-page- 抓取网页并将其转换为Markdown
- 参数:
url(必填),selector(可选) extract-links- 从网页中提取所有链接及其文本
- 参数:
url(必填),baseUrl(可选),limit(可选,默认100) crawl-site- 递归爬取网站到指定深度
- 参数:
url(必填),maxDepth(可选,默认2) check-links- 检查页面上的损坏链接
- 参数:
url(必填) find-patterns- 查找符合特定模式的URL
- 参数:
url(必填),pattern(必填) generate-site-map- 通过爬取生成简单的XML站点地图
- 参数:
url(必填),maxDepth(可选,默认2),limit(可选,默认1000)
常见问题解答
- 错误处理:服务器实现了全面的错误处理,包括无效参数、网络错误、内容解析错误和URL验证。
使用教程
使用依赖
- Node.js >= 18
- npm
安装教程
通过Smithery安装
bash
npx -y @smithery/cli install mcp-server-webscan --client claude
手动安装
bash
git clone <repository-url>
cd mcp-server-webscan
npm install
npm run build
调试方式
启动服务器
bash
npm start
开发模式
bash
npm run dev
构建项目
bash
npm run build
