基本能力
产品定位
mcp_scraper 是一个用于网页抓取和 HTML 到 Markdown 转换的工具,适用于需要从网页中提取结构化内容的场景。
核心功能
- 使用 Mozilla 的 Readability 库提取网页内容(与 Firefox 的 Reader View 相同引擎)。
- 通过 TurndownService 将干净的 HTML 转换为高质量的 Markdown。
- 安全处理 HTML,移除潜在有害的脚本标签。
- 支持作为命令行工具和 MCP 服务器运行。
- 支持本地 HTML 文件的直接转换。
适用场景
- 网页内容抓取和结构化提取。
- HTML 到 Markdown 的批量转换。
- 本地 HTML 文件的快速转换。
- 开发中需要自动化处理网页内容的场景。
工具列表
- scrapeToMarkdown: 抓取网站并转换为 Markdown。
- htmlToMarkdown: 直接将 HTML 字符串转换为 Markdown。
常见问题解答
无明确常见问题解答部分。
使用教程
使用依赖
```bash
Install dependencies
npm install
```
安装教程
```bash
Build the project
npm run build
Optionally, install globally
npm install -g .
```
调试方式
CLI 模式
```bash
Print output to console
scrape https://example.com
Save output to a file
scrape https://example.com output.md
Convert a local HTML file to Markdown
scrape --html-file input.html
Convert a local HTML file and save output to a file
scrape --html-file input.html output.md
Show help
scrape --help
Or run via npm script
npm run start:cli -- https://example.com
```
MCP Server 模式
```bash
Start in MCP server mode
npm start
```