每天开心一点


每个优秀java程序员必须具备的技术技能
用技能赚钱现在,有这样一种主流观念,压垮了很多新手软件开发者,那就是你需要学习很多东西才能成为软件开发人员,并且很多人不知道从哪里开始起步。这里我会尝试着具体说明那些在你追求成为软件开发人员的路上将让你受益的必要技术技能。一篇文章当然不能详尽说明作为软件开发者,你可能需要掌握的所有技术技能,但是我会列出最关键的一些技术技能。编程语言我认为从这一条开始说起是最合适的。不懂编程语言,怎么能成为一个真正...
1268    2017-12-08
小白学爬虫-批量部署Splash负载集群
部署公司生产环境的Splash集群无奈节点太多 差点被搞死··  还好我有运维神器Ansible,一次编撰终生可用啊!而且这玩意儿 等幂特性 扩容回滚 So Easy!!闲话少说开搞!安装Ansible:看官方文档去:http://www.ansible.com.cn/index.html好像这个主控端不支持Windows? 大家虚拟机装个Ubuntu吧。闲话少扯直...
1500    2017-12-06
小白学爬虫-在无GUI的CentOS上使用Selenium+Chrome
各位小伙伴儿的采集日常是不是被JavaScript的各种点击事件折腾的欲仙欲死啊?好不容易找到个Selenium+Chrome可以解决问题!但是另一个▄█▀█●的事实摆在面前,服务器都特么没有GUI啊··好吧!咱们要知难而上!决不能被这个点小困难打倒·······然而摆在面前的事实是····  他丫的各种装不上啊!坑爹啊! 那么我来拯救你们于水火之间了!服务器如...
1627    2017-12-06
小白学爬虫-设置Selenium+Chrome代理
 微博登录限制了错误次数···加上Cookie大批账号被封需要从Cookie池中 剔除被封的账号··· 需要使用代理··· 无赖百度了大半天都是特么的啥玩意儿???结果换成了 Google手到擒来 分分钟解决(那么问题来了?百度除了卖假药还会干啥?)Selenium+Chrome认证代理不能通过options处理。只能换个方法使用扩展解决原文地址:https://stackove...
1217    2017-12-06
小白进阶第七篇(Splash负载均衡)
对于Scrapy处理Ajax 处理方式当然是同家兄弟Splash比较靠谱!但是Splash有个很坑爹的毛病就是负载承受相对较小·· 一不留神就GG了·········· 然后也就没有然后了~~!所以准备给Splash做一个负载均衡;后端放一大堆的Splash这样总不会GG了吧。就算其中一个GG了还有其它的可替代不是?废话不多少开整··环境是基于:CentOS 7.3Docker 17...
1296    2017-12-06
利用新接口抓取微信公众号的所有文章
各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公共号历史信息!!!这丫除了通过中间代理采集APP、还真没什么招数能拿到数据啊!直到············前天晚上微信官方发布了一个文章:点我大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。诶妈呀!这不是一直需要的采集接口嘛!啧啧 天助我也啊!来来·········下面大致的说一下方法。1、首先你需要一...
1505    2017-12-06
小白进阶之Scrapy第五篇(Scrapy-Splash配合CrawlSpider)
估摸着各位小伙伴儿被想使用CrawlSpider的Rule来抓取JS,相当受折磨;CrawlSpider Rule总是不能和Splash结合。废话不多说,手疼···· 方法1:写一个自定义的函数,使用Rule中的process_request参数;来替换掉Rule本身Request的逻辑。参考官方文档:1、将请求更换为SplashRequest请求:2、每次请求将本次请...
1504    2017-12-06
Scrapy简单入门及实例讲解
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy...
1229    2017-12-05
scrapy入门教程
官方入门教程:http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html
800    2017-12-05
Python--类的设计
类的设计这里讨论Python的OOP的设计问题,也就是如何使用类来对有用的对象进行建模。将编写Python中常用的OOP设计模式,例如,继承、组合、委托和工厂。另外介绍一些类设计的概念,例如伪私有属性、多继承等。 ================================================================================Python和OO...
774    2017-11-30