小白学爬虫-在无GUI的CentOS上使用Selenium+Chrome

各位小伙伴儿的采集日常是不是被JavaScript的各种点击事件折腾的欲仙欲死啊?好不容易找到个Selenium+Chrome可以解决问题!但是另一个▄█▀█●的事实摆在面前,服务器都特么没有GUI啊··好吧!咱们要知难而上!决不能被这个点小困难打倒·······然而摆在面前的事实是····  他丫的各种装不上啊!坑爹啊! 那么我来拯救你们于水火之间了!服务器如...
2017/12/06   六月   1620

小白学爬虫-设置Selenium+Chrome代理

 微博登录限制了错误次数···加上Cookie大批账号被封需要从Cookie池中 剔除被封的账号··· 需要使用代理··· 无赖百度了大半天都是特么的啥玩意儿???结果换成了 Google手到擒来 分分钟解决(那么问题来了?百度除了卖假药还会干啥?)Selenium+Chrome认证代理不能通过options处理。只能换个方法使用扩展解决原文地址:https://stackove...
2017/12/06   六月   1210

小白进阶第七篇(Splash负载均衡)

对于Scrapy处理Ajax 处理方式当然是同家兄弟Splash比较靠谱!但是Splash有个很坑爹的毛病就是负载承受相对较小·· 一不留神就GG了·········· 然后也就没有然后了~~!所以准备给Splash做一个负载均衡;后端放一大堆的Splash这样总不会GG了吧。就算其中一个GG了还有其它的可替代不是?废话不多少开整··环境是基于:CentOS 7.3Docker 17...
2017/12/06   六月   1290

利用新接口抓取微信公众号的所有文章

各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公共号历史信息!!!这丫除了通过中间代理采集APP、还真没什么招数能拿到数据啊!直到············前天晚上微信官方发布了一个文章:点我大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。诶妈呀!这不是一直需要的采集接口嘛!啧啧 天助我也啊!来来·········下面大致的说一下方法。1、首先你需要一...
2017/12/06   june   1497

小白进阶之Scrapy第五篇(Scrapy-Splash配合CrawlSpider)

估摸着各位小伙伴儿被想使用CrawlSpider的Rule来抓取JS,相当受折磨;CrawlSpider Rule总是不能和Splash结合。废话不多说,手疼···· 方法1:写一个自定义的函数,使用Rule中的process_request参数;来替换掉Rule本身Request的逻辑。参考官方文档:1、将请求更换为SplashRequest请求:2、每次请求将本次请...
2017/12/06   六月   1497

Scrapy简单入门及实例讲解

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy...
2017/12/05   六月   1225

scrapy入门教程

官方入门教程:http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html
2017/12/05   六月   796
2/2