Scrapling-MCP集成指南

# Scrapling MCP 集成指南：让 AI 直接调用强大的网页爬虫能力

# 前言

在 AI 辅助开发的时代，网页数据抓取是一个常见需求。传统方式需要我们编写爬虫代码、处理反爬机制、解析 HTML，流程繁琐。而 Scrapling (opens new window) 这个开源项目，通过 MCP (Model Context Protocol) 协议，让 Claude 等 AI 能够直接调用其强大的爬虫能力，彻底改变了这一局面。

# Scrapling 是什么？

Scrapling 是一个自适应网页爬虫框架，核心特性包括：

特性	说明
🧠 智能元素追踪	网站结构变化后，自动重定位目标元素
🛡️ 反爬绕过	内置绕过 Cloudflare Turnstile/Interstitial 等反爬机制
⚡ 高性能	优化的 JSON 序列化，比标准库快 10 倍
🕷️ 蜘蛛框架	支持并发爬取、暂停/恢复、自动代理轮换
🤖 MCP 集成	直接与 AI 对话式抓取网页数据

# 为什么选择 Scrapling MCP Server？

与其他网页抓取工具相比，Scrapling MCP Server 有几个独特优势：

# 1. 精准内容提取，节省 Token

其他工具通常是抓取整个页面内容传给 AI，导致大量无关内容消耗 token。Scrapling 允许先用 CSS 选择器定位目标元素，只提取需要的内容传给 AI。

# 传统方式
抓取整个页面 → 传给 AI → AI 从中提取字段 → 浪费大量 token

# Scrapling 方式
CSS 选择器定位 → 只提取目标元素 → 传给 AI → 高效精准

1
2
3
4
5

# 2. 反爬能力内置

无需额外配置，StealthyFetcher 可自动绕过 Cloudflare 等反爬系统。

# 3. 多种抓取模式

HTTP 模式：快速请求，模拟浏览器指纹
动态模式：完整浏览器渲染，处理 JavaScript
隐身模式：绕过反爬系统

# 4. 安全防护

自动清理隐藏内容（CSS 隐藏元素、aria-hidden、零宽字符等），防止提示注入攻击。

# 安装配置

# 第一步：安装 Scrapling

# 安装带 AI/MCP 依赖的版本
pip install "scrapling[ai]"

# 安装浏览器和依赖（很重要！）
scrapling install

1
2
3
4
5

# 第二步：确认安装路径

# Mac/Linux
which scrapling

# Windows
where scrapling

1
2
3
4
5

记下输出的路径，例如：/Users/你的用户名/.venv/bin/scrapling

# 第三步：配置 MCP Server

# Claude Desktop 配置

打开 Claude Desktop
点击左上角汉堡菜单 (☰) → Settings → Developer → Edit Config
在配置文件中添加：

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "/Users/你的用户名/.venv/bin/scrapling",
      "args": [
        "mcp"
      ]
    }
  }
}

1
2
3
4
5
6
7
8
9
10

配置文件位置：

MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json
Windows: %APPDATA%\Claude\claude_desktop_config.json

# Claude Code 配置

在终端执行：

# 使用完整路径添加 MCP Server
claude mcp add ScraplingServer "/Users/你的用户名/.venv/bin/scrapling" mcp

1
2

# Docker 方式

如果你使用 Docker：

# 拉取镜像
docker pull pyd4vinci/scrapling

# 或从 GitHub 拉取
docker pull ghcr.io/d4vinci/scrapling:latest

1
2
3
4
5

Docker 配置示例：

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "docker",
      "args": [
        "run",
        "--rm",
        "-i",
        "pyd4vinci/scrapling",
        "mcp"
      ]
    }
  }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14

# MCP Server 工具清单

配置完成后，Claude 将获得以下工具：

工具	功能
`get`	快速 HTTP 请求，模拟浏览器指纹
`bulk_get`	批量异步 HTTP 请求
`fetch`	动态内容抓取（完整浏览器渲染）
`bulk_fetch`	批量异步动态抓取
`stealthy_fetch`	隐身抓取，绕过 Cloudflare 等
`bulk_stealthy_fetch`	批量异步隐身抓取
`screenshot`	网页截图（PNG/JPEG）
`open_session`	创建持久浏览器会话
`close_session`	关闭浏览器会话
`list_sessions`	列出所有活动会话

# 实战示例

# 示例一：快速抓取静态页面

在 Claude 中直接对话：

请帮我抓取 https://example.com/products 页面上的所有产品名称和价格

Claude 会自动调用 get 工具，提取所需数据。

# 示例二：处理动态内容

请抓取这个 SPA 网站 https://spa-example.com/list 的商品列表，
页面是 JavaScript 动态渲染的

1
2

Claude 会使用 fetch 工具，启动浏览器渲染后抓取。

# 示例三：绕过 Cloudflare

帮我访问 https://protected-site.com，这个网站有 Cloudflare 保护

Claude 会使用 stealthy_fetch 工具，自动绕过反爬检测。

# 示例四：精准提取节省 Token

请抓取 https://news-site.com/article/123 
只提取文章标题（h1 标签）和正文（.article-content 类）

1
2

Claude 会使用 CSS 选择器精准定位，只提取需要的内容。

# 示例五：批量抓取

帮我同时抓取以下三个页面的产品信息：
- https://site.com/product/1
- https://site.com/product/2  
- https://site.com/product/3

1
2
3
4

Claude 会使用 bulk_get 并发抓取，效率更高。

# 示例六：持久会话

对于需要登录或多步骤操作的场景：

1. 先创建一个持久会话
2. 访问登录页面
3. 然后访问需要登录才能看到的用户中心

1
2
3

Claude 会使用 open_session 创建会话，后续请求复用同一浏览器实例。

# 最佳实践

# 1. 选择合适的抓取模式

场景	推荐工具
静态页面，无反爬	`get`
JavaScript 动态渲染	`fetch`
有 Cloudflare 保护	`stealthy_fetch`
需要登录状态	`open_session` + `fetch`

# 2. 善用 CSS 选择器

告诉 Claude 具体的选择器，可以大幅提高效率：

请抓取 https://example.com 的产品列表
选择器：.product-item
每个产品提取：.title（标题）和 .price（价格）

1
2
3

# 3. 批量操作提效

多个同类型页面，使用 bulk 系列工具并发抓取：

请用 bulk_stealthy_fetch 同时抓取这 10 个产品页面

# 4. 合理使用会话

需要多次请求同一网站时，创建持久会话避免重复启动浏览器：

1. 先用 open_session 创建会话
2. 多次 fetch 复用会话
3. 完成后 close_session 关闭

1
2
3

# 注意事项

# 法律与道德

遵守网站的 robots.txt 规则
尊重网站的服务条款
不要对服务器造成过大压力
仅抓取公开数据

# 技术限制

浏览器模式需要足够的内存
隐身模式首次启动较慢
部分 CAPTCHA 可能需要手动处理

# 与其他工具对比

工具	反爬能力	精准提取	AI 集成	学习成本
Scrapling MCP	✅ 内置	✅ CSS 选择器	✅ MCP 原生	低
Puppeteer	⚠️ 需配置	❌ 需编码	❌ 无	高
Requests	❌ 无	❌ 需编码	❌ 无	中
Playwright	⚠️ 需配置	❌ 需编码	❌ 无	高

# 总结

Scrapling 通过 MCP 协议将强大的网页爬虫能力带入 AI 对话中，让数据抓取变得像聊天一样简单。无论是绕过 Cloudflare、处理动态内容，还是精准提取特定元素，只需一句话，Claude 就能帮你完成。

对于经常需要网页数据采集的开发者来说，这是一项革命性的工具——不再需要编写和维护爬虫代码，让 AI 成为你的数据采集助手。

# 参考资料

作者：墨隐
发布日期：2026-06-29

← Claude-Code命令使用指南 AI开发者资源收录→