每天开心一点

小白进阶之Scrapy第五篇(Scrapy-Splash配合CrawlSpider)

2017-12-06 19:38:00    六月    1499    来源: http://cuiqingcai.com/4725.html

估摸着各位小伙伴儿被想使用CrawlSpider的Rule来抓取JS,相当受折磨;

CrawlSpider Rule总是不能和Splash结合。

废话不多说,手疼····

 

方法1:

写一个自定义的函数,使用Rule中的process_request参数;来替换掉Rule本身Request的逻辑。

参考官方文档:

1、将请求更换为SplashRequest请求:

2、每次请求将本次请求的URL使用Meta参数传递下去;

3、重写 _requests_to_follow 方法:替换响应Response的URL为我们传递的URL(否则会格式为Splash的地址)

就像下面这样

方法2:

这就很简单啦!干掉类型检查就是了(/≧▽≦)/

就像这样:

以上完毕@_@!!