悦书阁 悦书阁
首页
学习笔记
技术文档
AI技术
更多
  • 分类
  • 标签
  • 归档

Felix

大道至简 知易行难
首页
学习笔记
技术文档
AI技术
更多
  • 分类
  • 标签
  • 归档
  • 部署文档

    • 博客搭建
    • Jenkins教程
    • Docker安装和简单使用
    • minio安装
    • Mysql安装
    • Redis安装
    • Docker部署服务
    • IKEv2 VPN 部署教程
    • Windows开发环境配置指南
    • VPN 连接监控与 Telegram 实时通知
    • Windows Gitea 搭建完整指南
    • XXL-JOB 分布式任务调度平台部署
    • Claude-Code插件市场设计
    • MCP与Skill选择指南
    • Claude-Code命令使用指南
    • Scrapling-MCP集成指南
      • 前言
      • Scrapling 是什么?
      • 为什么选择 Scrapling MCP Server?
        • 1. 精准内容提取,节省 Token
        • 2. 反爬能力内置
        • 3. 多种抓取模式
        • 4. 安全防护
      • 安装配置
        • 第一步:安装 Scrapling
        • 第二步:确认安装路径
        • 第三步:配置 MCP Server
        • Claude Desktop 配置
        • Claude Code 配置
        • Docker 方式
      • MCP Server 工具清单
      • 实战示例
        • 示例一:快速抓取静态页面
        • 示例二:处理动态内容
        • 示例三:绕过 Cloudflare
        • 示例四:精准提取节省 Token
        • 示例五:批量抓取
        • 示例六:持久会话
      • 最佳实践
        • 1. 选择合适的抓取模式
        • 2. 善用 CSS 选择器
        • 3. 批量操作提效
        • 4. 合理使用会话
      • 注意事项
        • 法律与道德
        • 技术限制
      • 与其他工具对比
      • 总结
      • 参考资料
    • AI开发者资源收录
  • 开发工具

  • 经验技巧

  • 技术文档
  • 部署文档
liufei379
2026-06-29
目录

Scrapling-MCP集成指南

# Scrapling MCP 集成指南:让 AI 直接调用强大的网页爬虫能力

# 前言

在 AI 辅助开发的时代,网页数据抓取是一个常见需求。传统方式需要我们编写爬虫代码、处理反爬机制、解析 HTML,流程繁琐。而 Scrapling (opens new window) 这个开源项目,通过 MCP (Model Context Protocol) 协议,让 Claude 等 AI 能够直接调用其强大的爬虫能力,彻底改变了这一局面。

# Scrapling 是什么?

Scrapling 是一个自适应网页爬虫框架,核心特性包括:

特性 说明
🧠 智能元素追踪 网站结构变化后,自动重定位目标元素
🛡️ 反爬绕过 内置绕过 Cloudflare Turnstile/Interstitial 等反爬机制
⚡ 高性能 优化的 JSON 序列化,比标准库快 10 倍
🕷️ 蜘蛛框架 支持并发爬取、暂停/恢复、自动代理轮换
🤖 MCP 集成 直接与 AI 对话式抓取网页数据

# 为什么选择 Scrapling MCP Server?

与其他网页抓取工具相比,Scrapling MCP Server 有几个独特优势:

# 1. 精准内容提取,节省 Token

其他工具通常是抓取整个页面内容传给 AI,导致大量无关内容消耗 token。Scrapling 允许先用 CSS 选择器定位目标元素,只提取需要的内容传给 AI。

# 传统方式
抓取整个页面 → 传给 AI → AI 从中提取字段 → 浪费大量 token

# Scrapling 方式
CSS 选择器定位 → 只提取目标元素 → 传给 AI → 高效精准
1
2
3
4
5

# 2. 反爬能力内置

无需额外配置,StealthyFetcher 可自动绕过 Cloudflare 等反爬系统。

# 3. 多种抓取模式

  • HTTP 模式:快速请求,模拟浏览器指纹
  • 动态模式:完整浏览器渲染,处理 JavaScript
  • 隐身模式:绕过反爬系统

# 4. 安全防护

自动清理隐藏内容(CSS 隐藏元素、aria-hidden、零宽字符等),防止提示注入攻击。

# 安装配置

# 第一步:安装 Scrapling

# 安装带 AI/MCP 依赖的版本
pip install "scrapling[ai]"

# 安装浏览器和依赖(很重要!)
scrapling install
1
2
3
4
5

# 第二步:确认安装路径

# Mac/Linux
which scrapling

# Windows
where scrapling
1
2
3
4
5

记下输出的路径,例如:/Users/你的用户名/.venv/bin/scrapling

# 第三步:配置 MCP Server

# Claude Desktop 配置

  1. 打开 Claude Desktop
  2. 点击左上角汉堡菜单 (☰) → Settings → Developer → Edit Config
  3. 在配置文件中添加:
{
  "mcpServers": {
    "ScraplingServer": {
      "command": "/Users/你的用户名/.venv/bin/scrapling",
      "args": [
        "mcp"
      ]
    }
  }
}
1
2
3
4
5
6
7
8
9
10

配置文件位置:

  • MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json
  • Windows: %APPDATA%\Claude\claude_desktop_config.json

# Claude Code 配置

在终端执行:

# 使用完整路径添加 MCP Server
claude mcp add ScraplingServer "/Users/你的用户名/.venv/bin/scrapling" mcp
1
2

# Docker 方式

如果你使用 Docker:

# 拉取镜像
docker pull pyd4vinci/scrapling

# 或从 GitHub 拉取
docker pull ghcr.io/d4vinci/scrapling:latest
1
2
3
4
5

Docker 配置示例:

{
  "mcpServers": {
    "ScraplingServer": {
      "command": "docker",
      "args": [
        "run",
        "--rm",
        "-i",
        "pyd4vinci/scrapling",
        "mcp"
      ]
    }
  }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14

# MCP Server 工具清单

配置完成后,Claude 将获得以下工具:

工具 功能
get 快速 HTTP 请求,模拟浏览器指纹
bulk_get 批量异步 HTTP 请求
fetch 动态内容抓取(完整浏览器渲染)
bulk_fetch 批量异步动态抓取
stealthy_fetch 隐身抓取,绕过 Cloudflare 等
bulk_stealthy_fetch 批量异步隐身抓取
screenshot 网页截图(PNG/JPEG)
open_session 创建持久浏览器会话
close_session 关闭浏览器会话
list_sessions 列出所有活动会话

# 实战示例

# 示例一:快速抓取静态页面

在 Claude 中直接对话:

请帮我抓取 https://example.com/products 页面上的所有产品名称和价格
1

Claude 会自动调用 get 工具,提取所需数据。

# 示例二:处理动态内容

请抓取这个 SPA 网站 https://spa-example.com/list 的商品列表,
页面是 JavaScript 动态渲染的
1
2

Claude 会使用 fetch 工具,启动浏览器渲染后抓取。

# 示例三:绕过 Cloudflare

帮我访问 https://protected-site.com,这个网站有 Cloudflare 保护
1

Claude 会使用 stealthy_fetch 工具,自动绕过反爬检测。

# 示例四:精准提取节省 Token

请抓取 https://news-site.com/article/123 
只提取文章标题(h1 标签)和正文(.article-content 类)
1
2

Claude 会使用 CSS 选择器精准定位,只提取需要的内容。

# 示例五:批量抓取

帮我同时抓取以下三个页面的产品信息:
- https://site.com/product/1
- https://site.com/product/2  
- https://site.com/product/3
1
2
3
4

Claude 会使用 bulk_get 并发抓取,效率更高。

# 示例六:持久会话

对于需要登录或多步骤操作的场景:

1. 先创建一个持久会话
2. 访问登录页面
3. 然后访问需要登录才能看到的用户中心
1
2
3

Claude 会使用 open_session 创建会话,后续请求复用同一浏览器实例。

# 最佳实践

# 1. 选择合适的抓取模式

场景 推荐工具
静态页面,无反爬 get
JavaScript 动态渲染 fetch
有 Cloudflare 保护 stealthy_fetch
需要登录状态 open_session + fetch

# 2. 善用 CSS 选择器

告诉 Claude 具体的选择器,可以大幅提高效率:

请抓取 https://example.com 的产品列表
选择器:.product-item
每个产品提取:.title(标题)和 .price(价格)
1
2
3

# 3. 批量操作提效

多个同类型页面,使用 bulk 系列工具并发抓取:

请用 bulk_stealthy_fetch 同时抓取这 10 个产品页面
1

# 4. 合理使用会话

需要多次请求同一网站时,创建持久会话避免重复启动浏览器:

1. 先用 open_session 创建会话
2. 多次 fetch 复用会话
3. 完成后 close_session 关闭
1
2
3

# 注意事项

# 法律与道德

  • 遵守网站的 robots.txt 规则
  • 尊重网站的服务条款
  • 不要对服务器造成过大压力
  • 仅抓取公开数据

# 技术限制

  • 浏览器模式需要足够的内存
  • 隐身模式首次启动较慢
  • 部分 CAPTCHA 可能需要手动处理

# 与其他工具对比

工具 反爬能力 精准提取 AI 集成 学习成本
Scrapling MCP ✅ 内置 ✅ CSS 选择器 ✅ MCP 原生 低
Puppeteer ⚠️ 需配置 ❌ 需编码 ❌ 无 高
Requests ❌ 无 ❌ 需编码 ❌ 无 中
Playwright ⚠️ 需配置 ❌ 需编码 ❌ 无 高

# 总结

Scrapling 通过 MCP 协议将强大的网页爬虫能力带入 AI 对话中,让数据抓取变得像聊天一样简单。无论是绕过 Cloudflare、处理动态内容,还是精准提取特定元素,只需一句话,Claude 就能帮你完成。

对于经常需要网页数据采集的开发者来说,这是一项革命性的工具——不再需要编写和维护爬虫代码,让 AI 成为你的数据采集助手。

# 参考资料

  • Scrapling GitHub 仓库 (opens new window)
  • Scrapling 官方文档 (opens new window)
  • MCP Server 文档 (opens new window)
  • Claude Code 官方介绍 (opens new window)

作者:墨隐
发布日期:2026-06-29

Claude-Code命令使用指南
AI开发者资源收录

← Claude-Code命令使用指南 AI开发者资源收录→

最近更新
01
AI开发者资源收录
06-29
02
VPN 连接监控与 Telegram 实时通知
06-22
03
Claude-Code命令使用指南
06-22
更多文章>
Theme by Vdoing | Copyright © 2022-2026 Felix
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式