Scrapling-MCP集成指南
# Scrapling MCP 集成指南:让 AI 直接调用强大的网页爬虫能力
# 前言
在 AI 辅助开发的时代,网页数据抓取是一个常见需求。传统方式需要我们编写爬虫代码、处理反爬机制、解析 HTML,流程繁琐。而 Scrapling (opens new window) 这个开源项目,通过 MCP (Model Context Protocol) 协议,让 Claude 等 AI 能够直接调用其强大的爬虫能力,彻底改变了这一局面。
# Scrapling 是什么?
Scrapling 是一个自适应网页爬虫框架,核心特性包括:
| 特性 | 说明 |
|---|---|
| 🧠 智能元素追踪 | 网站结构变化后,自动重定位目标元素 |
| 🛡️ 反爬绕过 | 内置绕过 Cloudflare Turnstile/Interstitial 等反爬机制 |
| ⚡ 高性能 | 优化的 JSON 序列化,比标准库快 10 倍 |
| 🕷️ 蜘蛛框架 | 支持并发爬取、暂停/恢复、自动代理轮换 |
| 🤖 MCP 集成 | 直接与 AI 对话式抓取网页数据 |
# 为什么选择 Scrapling MCP Server?
与其他网页抓取工具相比,Scrapling MCP Server 有几个独特优势:
# 1. 精准内容提取,节省 Token
其他工具通常是抓取整个页面内容传给 AI,导致大量无关内容消耗 token。Scrapling 允许先用 CSS 选择器定位目标元素,只提取需要的内容传给 AI。
# 传统方式
抓取整个页面 → 传给 AI → AI 从中提取字段 → 浪费大量 token
# Scrapling 方式
CSS 选择器定位 → 只提取目标元素 → 传给 AI → 高效精准
2
3
4
5
# 2. 反爬能力内置
无需额外配置,StealthyFetcher 可自动绕过 Cloudflare 等反爬系统。
# 3. 多种抓取模式
- HTTP 模式:快速请求,模拟浏览器指纹
- 动态模式:完整浏览器渲染,处理 JavaScript
- 隐身模式:绕过反爬系统
# 4. 安全防护
自动清理隐藏内容(CSS 隐藏元素、aria-hidden、零宽字符等),防止提示注入攻击。
# 安装配置
# 第一步:安装 Scrapling
# 安装带 AI/MCP 依赖的版本
pip install "scrapling[ai]"
# 安装浏览器和依赖(很重要!)
scrapling install
2
3
4
5
# 第二步:确认安装路径
# Mac/Linux
which scrapling
# Windows
where scrapling
2
3
4
5
记下输出的路径,例如:/Users/你的用户名/.venv/bin/scrapling
# 第三步:配置 MCP Server
# Claude Desktop 配置
- 打开 Claude Desktop
- 点击左上角汉堡菜单 (☰) → Settings → Developer → Edit Config
- 在配置文件中添加:
{
"mcpServers": {
"ScraplingServer": {
"command": "/Users/你的用户名/.venv/bin/scrapling",
"args": [
"mcp"
]
}
}
}
2
3
4
5
6
7
8
9
10
配置文件位置:
- MacOS:
~/Library/Application Support/Claude/claude_desktop_config.json - Windows:
%APPDATA%\Claude\claude_desktop_config.json
# Claude Code 配置
在终端执行:
# 使用完整路径添加 MCP Server
claude mcp add ScraplingServer "/Users/你的用户名/.venv/bin/scrapling" mcp
2
# Docker 方式
如果你使用 Docker:
# 拉取镜像
docker pull pyd4vinci/scrapling
# 或从 GitHub 拉取
docker pull ghcr.io/d4vinci/scrapling:latest
2
3
4
5
Docker 配置示例:
{
"mcpServers": {
"ScraplingServer": {
"command": "docker",
"args": [
"run",
"--rm",
"-i",
"pyd4vinci/scrapling",
"mcp"
]
}
}
}
2
3
4
5
6
7
8
9
10
11
12
13
14
# MCP Server 工具清单
配置完成后,Claude 将获得以下工具:
| 工具 | 功能 |
|---|---|
get | 快速 HTTP 请求,模拟浏览器指纹 |
bulk_get | 批量异步 HTTP 请求 |
fetch | 动态内容抓取(完整浏览器渲染) |
bulk_fetch | 批量异步动态抓取 |
stealthy_fetch | 隐身抓取,绕过 Cloudflare 等 |
bulk_stealthy_fetch | 批量异步隐身抓取 |
screenshot | 网页截图(PNG/JPEG) |
open_session | 创建持久浏览器会话 |
close_session | 关闭浏览器会话 |
list_sessions | 列出所有活动会话 |
# 实战示例
# 示例一:快速抓取静态页面
在 Claude 中直接对话:
请帮我抓取 https://example.com/products 页面上的所有产品名称和价格
Claude 会自动调用 get 工具,提取所需数据。
# 示例二:处理动态内容
请抓取这个 SPA 网站 https://spa-example.com/list 的商品列表,
页面是 JavaScript 动态渲染的
2
Claude 会使用 fetch 工具,启动浏览器渲染后抓取。
# 示例三:绕过 Cloudflare
帮我访问 https://protected-site.com,这个网站有 Cloudflare 保护
Claude 会使用 stealthy_fetch 工具,自动绕过反爬检测。
# 示例四:精准提取节省 Token
请抓取 https://news-site.com/article/123
只提取文章标题(h1 标签)和正文(.article-content 类)
2
Claude 会使用 CSS 选择器精准定位,只提取需要的内容。
# 示例五:批量抓取
帮我同时抓取以下三个页面的产品信息:
- https://site.com/product/1
- https://site.com/product/2
- https://site.com/product/3
2
3
4
Claude 会使用 bulk_get 并发抓取,效率更高。
# 示例六:持久会话
对于需要登录或多步骤操作的场景:
1. 先创建一个持久会话
2. 访问登录页面
3. 然后访问需要登录才能看到的用户中心
2
3
Claude 会使用 open_session 创建会话,后续请求复用同一浏览器实例。
# 最佳实践
# 1. 选择合适的抓取模式
| 场景 | 推荐工具 |
|---|---|
| 静态页面,无反爬 | get |
| JavaScript 动态渲染 | fetch |
| 有 Cloudflare 保护 | stealthy_fetch |
| 需要登录状态 | open_session + fetch |
# 2. 善用 CSS 选择器
告诉 Claude 具体的选择器,可以大幅提高效率:
请抓取 https://example.com 的产品列表
选择器:.product-item
每个产品提取:.title(标题)和 .price(价格)
2
3
# 3. 批量操作提效
多个同类型页面,使用 bulk 系列工具并发抓取:
请用 bulk_stealthy_fetch 同时抓取这 10 个产品页面
# 4. 合理使用会话
需要多次请求同一网站时,创建持久会话避免重复启动浏览器:
1. 先用 open_session 创建会话
2. 多次 fetch 复用会话
3. 完成后 close_session 关闭
2
3
# 注意事项
# 法律与道德
- 遵守网站的
robots.txt规则 - 尊重网站的服务条款
- 不要对服务器造成过大压力
- 仅抓取公开数据
# 技术限制
- 浏览器模式需要足够的内存
- 隐身模式首次启动较慢
- 部分 CAPTCHA 可能需要手动处理
# 与其他工具对比
| 工具 | 反爬能力 | 精准提取 | AI 集成 | 学习成本 |
|---|---|---|---|---|
| Scrapling MCP | ✅ 内置 | ✅ CSS 选择器 | ✅ MCP 原生 | 低 |
| Puppeteer | ⚠️ 需配置 | ❌ 需编码 | ❌ 无 | 高 |
| Requests | ❌ 无 | ❌ 需编码 | ❌ 无 | 中 |
| Playwright | ⚠️ 需配置 | ❌ 需编码 | ❌ 无 | 高 |
# 总结
Scrapling 通过 MCP 协议将强大的网页爬虫能力带入 AI 对话中,让数据抓取变得像聊天一样简单。无论是绕过 Cloudflare、处理动态内容,还是精准提取特定元素,只需一句话,Claude 就能帮你完成。
对于经常需要网页数据采集的开发者来说,这是一项革命性的工具——不再需要编写和维护爬虫代码,让 AI 成为你的数据采集助手。
# 参考资料
- Scrapling GitHub 仓库 (opens new window)
- Scrapling 官方文档 (opens new window)
- MCP Server 文档 (opens new window)
- Claude Code 官方介绍 (opens new window)
作者:墨隐
发布日期:2026-06-29