Skip to content

总叙

工具人,啊不,工具蜘蛛。

使用场景

  • 通用爬虫:抓取系统重要组成部分,抓取的是**一整张页面数据**。
  • 聚焦爬虫:建立在通用爬虫之上,抓取的是页面中**特定的局部内容**。
  • 增量爬虫:检测网站中数据更新的情况,只会抓取网站中**最新的数据**。

矛与盾

  • 反爬机制:门户网站,可以通过指定相应的策略或技术手段,防止爬虫程序进行爬取
    • 检查User-Agent
    • IP屏蔽
  • 抗反爬策略:通过制定相关策略或技术手段破解门户网站的反爬机制。
    • UA伪装
    • IP代理
  • robots.txt 协议 —— 君子协议:规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取

  • http

  • 概念:服务器与客户端数据交互的一种形式
  • 常用请求头信息:
    • User-Agent:请求载体的身份载体
    • Connection:请求完毕后,是否断开连接
  • 常用响应头信息:

    • Content-Type:服务器响应回客户端的数据类型
  • https 安全的http协议