关于我们当前位置:恒行平台 > 关于我们 > >

node+experss实现爬取电影天堂爬虫

  

[nodejs,爬虫,node,爬虫,nodejs]node+experss实现爬取电影天堂爬虫

  

上周写了一个node+experss的爬虫小入门。今天继续来学习一下,写一个爬虫2.0版本。

  

  

这次我们不再爬博客园了,咋玩点新的,爬爬电影天堂。因为每个周末都会在电影天堂下载一部电影来看看。

  

  

talk is cheap,show me the code!

  

  

抓取页面分析  

  

我们的目标:  

  

1、抓取电影天堂首页,获取左侧最新电影的169条链接  

  

2、抓取169部新电影的迅雷下载链接,并且并发异步抓取。

  

  

具体分析如下:  

  

1、我们不需要抓取迅雷的所有东西,只需要下载最新发布的电影即可,比如下面的左侧栏。一共有170个,除去第一个(因为第一个里面有200部电影),一共有169部电影。

  

  

  

  

2、除了抓取首页的东西,我们还要抓取点进去之后,每部电影的迅雷下载链接  

  

  

  

环境搭建  

  

1、需要的东西:node环境、express、cherrio 这三个都是上一篇文章有介绍的,所以这里不再做介绍:点击查看  

  

2、需要安装的新东西:  

  

superagent:  

  

作用:跟request差不多,我们可以用它来获取get/post等请求,并且可以设置相关的请求头信息,相比较使用内置的模块,要简单很多。

  

  

用法:  

  
  
  var superagent = require('superagent');  superagent  .get('/some-url')  .end(function(err, res){  // Do something  });

(责任编辑:admin)

上一篇:没有了

下一篇:没有了

推荐内容