Web Scraper 抓取分页列表及其二级页面内容

Eric 杂记 2,137 次浏览 评论已关闭

Web Scraper 是一个自动抓取网页内容的 Chrome 插件,通过简单图形化操作设置就能使用。本文介绍较为常用的场景,先抓取网站分页列表,并获取其中各个页面特定内容。

Web Scraper 安装

Chrome 应用商店下载地址。如果不能爬墙,可以用 这个网站 转换下载(注:新版 Chrome 已不能直接用拖拽方式安装,需将下载文件改为 zip 后缀并解压。再通过 Chrome 扩展页面右上角开发者模式,点击加载已解压文件夹)。

安装后按 F12 键调出开发者工具,菜单栏点击 Web Scraper 选项卡,之后就在这里操作了。

Web Scraper 配置

1. 点击 Create Sitemap 新建项目,Sitemap name 填写名称,Start URL 输入要爬取的网页链接。

Create Sitemap 新建项目

设置名称和爬取网页链接

如果要爬多个网站分页,用 [XX-XX] 区分表示。例如要爬10个分页,链接格式如下:

http://example.com/page/[1-10]

2. 创建后点 Add new selector 按钮开始设置选取规则。

Add new selector

通常只需设置 Id、Type、Selector、Multiple 这几个选项。

  • Id:选择器名称,随便取个;
  • Type:抓取内容的类型;
  • Selector:先点 Select,然后鼠标选择网页元素,选好后点击 Done Selecting 按钮;
  • Multiple:如果要选择全部相同元素,需勾选这个选项;

本文目的是抓取分页列表,然后再获取二级页面里的特定内容。所以第一步先选择网页列表区域。

获取分页列表区域

3. 创建获取列表内容的规则后,接着点击该规则,再点 Add new selector 按钮继续创建其它规则。

点击创建的选择器

继续创建新的选择器

下步创建选择页面内容链接的规则,类型选择 Link。连续点击 2 个相同元素会自动选中所有相同元素。

获取二级页面链接

4. 接着再点创建好的规则,在里面继续新建一个选择元素,作用是要抓取二级页面里的哪些内容元素。

例如抓取二级页面里的下载链接。

获取二级页面内特定内容

5. 创建流程所需的所有规则后,点 Scrape 按钮开始爬取内容。点击后有个间隔延迟时间,通常保持默认的就行。之后会自动打开浏览器小窗口刷新页面,任务完成后会自动关闭。

开始抓取网页内容

Web Scraper 数据

待自动抓取内容完成后,点 Export data as CSV 按钮导出数据。

导出数据到 CSV 文件

之后就可以用 Excel 软件查看所抓取内容了。

查看抓取到的数据内容

结束语

以上就是用 Web Scraper 抓取多个网页内容方法。虽然图片比较多,但实际设置很简单。首先明确抓取网页内容的过程步骤,然后按次序创建相应规则即可。

如果网页是那种 AJAX 加载方式,Web Scraper 也支持,具体可以看官方文档说明。