小白学爬虫-批量部署Splash负载集群

部署公司生产环境的Splash集群无奈节点太多 差点被搞死··  还好我有运维神器Ansible,一次编撰终生可用啊!而且这玩意儿 等幂特性 扩容回滚 So Easy!!闲话少说开搞!安装Ansible:看官方文档去:http://www.ansible.com.cn/index.html好像这个主控端不支持Windows? 大家虚拟机装个Ubuntu吧。闲话少扯直...
2017/12/06   六月   1491

小白学爬虫-在无GUI的CentOS上使用Selenium+Chrome

各位小伙伴儿的采集日常是不是被JavaScript的各种点击事件折腾的欲仙欲死啊?好不容易找到个Selenium+Chrome可以解决问题!但是另一个▄█▀█●的事实摆在面前,服务器都特么没有GUI啊··好吧!咱们要知难而上!决不能被这个点小困难打倒·······然而摆在面前的事实是····  他丫的各种装不上啊!坑爹啊! 那么我来拯救你们于水火之间了!服务器如...
2017/12/06   六月   1620

小白学爬虫-设置Selenium+Chrome代理

 微博登录限制了错误次数···加上Cookie大批账号被封需要从Cookie池中 剔除被封的账号··· 需要使用代理··· 无赖百度了大半天都是特么的啥玩意儿???结果换成了 Google手到擒来 分分钟解决(那么问题来了?百度除了卖假药还会干啥?)Selenium+Chrome认证代理不能通过options处理。只能换个方法使用扩展解决原文地址:https://stackove...
2017/12/06   六月   1210

小白进阶第七篇(Splash负载均衡)

对于Scrapy处理Ajax 处理方式当然是同家兄弟Splash比较靠谱!但是Splash有个很坑爹的毛病就是负载承受相对较小·· 一不留神就GG了·········· 然后也就没有然后了~~!所以准备给Splash做一个负载均衡;后端放一大堆的Splash这样总不会GG了吧。就算其中一个GG了还有其它的可替代不是?废话不多少开整··环境是基于:CentOS 7.3Docker 17...
2017/12/06   六月   1289

利用新接口抓取微信公众号的所有文章

各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公共号历史信息!!!这丫除了通过中间代理采集APP、还真没什么招数能拿到数据啊!直到············前天晚上微信官方发布了一个文章:点我大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。诶妈呀!这不是一直需要的采集接口嘛!啧啧 天助我也啊!来来·········下面大致的说一下方法。1、首先你需要一...
2017/12/06   june   1495

小白进阶之Scrapy第五篇(Scrapy-Splash配合CrawlSpider)

估摸着各位小伙伴儿被想使用CrawlSpider的Rule来抓取JS,相当受折磨;CrawlSpider Rule总是不能和Splash结合。废话不多说,手疼···· 方法1:写一个自定义的函数,使用Rule中的process_request参数;来替换掉Rule本身Request的逻辑。参考官方文档:1、将请求更换为SplashRequest请求:2、每次请求将本次请...
2017/12/06   六月   1497
1/1