Website Scraper - MCP服务,MCP服务器,MCP教程

基本能力

产品定位

mcp_scraper 是一个用于网页抓取和 HTML 到 Markdown 转换的工具,适用于需要从网页中提取结构化内容的场景。

核心功能

  • 使用 Mozilla 的 Readability 库提取网页内容(与 Firefox 的 Reader View 相同引擎)。
  • 通过 TurndownService 将干净的 HTML 转换为高质量的 Markdown。
  • 安全处理 HTML,移除潜在有害的脚本标签。
  • 支持作为命令行工具和 MCP 服务器运行。
  • 支持本地 HTML 文件的直接转换。

适用场景

  • 网页内容抓取和结构化提取。
  • HTML 到 Markdown 的批量转换。
  • 本地 HTML 文件的快速转换。
  • 开发中需要自动化处理网页内容的场景。

工具列表

  • scrapeToMarkdown: 抓取网站并转换为 Markdown。
  • htmlToMarkdown: 直接将 HTML 字符串转换为 Markdown。

常见问题解答

无明确常见问题解答部分。

使用教程

使用依赖

```bash

Install dependencies

npm install
```

安装教程

```bash

Build the project

npm run build

Optionally, install globally

npm install -g .
```

调试方式

CLI 模式

```bash

scrape https://example.com

Save output to a file

scrape https://example.com output.md

Convert a local HTML file to Markdown

scrape --html-file input.html

Convert a local HTML file and save output to a file

scrape --html-file input.html output.md

Show help

scrape --help

Or run via npm script

npm run start:cli -- https://example.com
```

MCP Server 模式

```bash

Start in MCP server mode

npm start
```

点击访问

搜索工具

Log Analyzer with MCP - MCP服务,MCP服务器,MCP教程

2025-4-29 16:44:04

搜索工具

mcp-server-solidworks - MCP服务,MCP服务器,MCP教程

2025-4-29 16:44:10

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索