每天开心一点


HTTP 基本原理
HTTP请求 响应 状态码
553    2023-01-04
15 分钟用 ML 破解一个验证码系统
人人都恨验证码——那些恼人的图片,显示着你在登陆某网站前得输入的文本。设计验证码的目的是,通过验证你是真实的人来避免电脑自动填充表格。但是随着深度学习和计算机视觉的兴起,现在验证码常常易被攻破。
1175    2018-02-03
揭密微信跳一跳小游戏那些外挂
本着钻研技术的学习态度,我对目前几款比较火的外挂进行了源码分析,总结出了它们的一些破解思路,其实这些作者都并非恶意,作为一个程序员,还有什么比用技术挑战规则,突破极限要有成就感呢?
1071    2018-01-24
Scrapy分布式的部署详解
Scrapy分布式的部署详解
1208    2018-01-20
Scrapy分布式架构搭建抓取知乎
Scrapy分布式架构搭建抓取知乎
1156    2018-01-20
Scrapy分布式原理及Scrapy-Redis源码解析
Scrapy分布式原理及Scrapy-Redis源码解析
1155    2018-01-20
Python使用pyquery抓取股票行情数据实例
最近由于公司业务上的需求,要网络采集一些数据,并格式化以供应用的调取,前期想到用正则表达式来对网页格式串进行过滤和抓取,在进行了一系列尝试之后放弃,原因是太繁琐了,而且对于每种网页都需要写特定的表达式,不可通用。    后面在查找相关资料时,发现python也提供一个类似jquery的包,叫做pyquery,可用以进行网络抓取,遂安装研究了一下,发现确实挺好用,不...
1285    2017-12-30
用requests爬虫拒绝301/302页面的重定向而拿到Location(重定向页面URL)的方法
def yunsite(): 'url' headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, sdch, br', ...
1294    2017-12-18
pyspider 爬虫教程
pyspider简介pyspider 爬虫教程(一):HTML 和 CSS 选择器pyspider 爬虫教程(二):AJAX 和 HTTPpyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面
1172    2017-12-08
小白学爬虫-批量部署Splash负载集群
部署公司生产环境的Splash集群无奈节点太多 差点被搞死··  还好我有运维神器Ansible,一次编撰终生可用啊!而且这玩意儿 等幂特性 扩容回滚 So Easy!!闲话少说开搞!安装Ansible:看官方文档去:http://www.ansible.com.cn/index.html好像这个主控端不支持Windows? 大家虚拟机装个Ubuntu吧。闲话少扯直...
1492    2017-12-06