爬虫项目学习 - 每天开心一点

HTTP 基本原理

HTTP请求响应状态码

553 2023-01-04

15 分钟用 ML 破解一个验证码系统

人人都恨验证码——那些恼人的图片，显示着你在登陆某网站前得输入的文本。设计验证码的目的是，通过验证你是真实的人来避免电脑自动填充表格。但是随着深度学习和计算机视觉的兴起，现在验证码常常易被攻破。

1175 2018-02-03

揭密微信跳一跳小游戏那些外挂

本着钻研技术的学习态度，我对目前几款比较火的外挂进行了源码分析，总结出了它们的一些破解思路，其实这些作者都并非恶意，作为一个程序员，还有什么比用技术挑战规则，突破极限要有成就感呢？

1071 2018-01-24

Scrapy分布式的部署详解

1208 2018-01-20

Scrapy分布式架构搭建抓取知乎

1156 2018-01-20

Scrapy分布式原理及Scrapy-Redis源码解析

1155 2018-01-20

Python使用pyquery抓取股票行情数据实例

最近由于公司业务上的需求，要网络采集一些数据，并格式化以供应用的调取，前期想到用正则表达式来对网页格式串进行过滤和抓取，在进行了一系列尝试之后放弃，原因是太繁琐了，而且对于每种网页都需要写特定的表达式，不可通用。后面在查找相关资料时，发现python也提供一个类似jquery的包，叫做pyquery，可用以进行网络抓取，遂安装研究了一下，发现确实挺好用，不...

1285 2017-12-30

用requests爬虫拒绝301/302页面的重定向而拿到Location(重定向页面URL)的方法

def yunsite(): 'url' headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, sdch, br', ...

1294 2017-12-18

pyspider 爬虫教程

pyspider简介pyspider 爬虫教程（一）：HTML 和 CSS 选择器pyspider 爬虫教程（二）：AJAX 和 HTTPpyspider 爬虫教程（三）：使用 PhantomJS 渲染带 JS 的页面

1172 2017-12-08

小白学爬虫-批量部署Splash负载集群

部署公司生产环境的Splash集群无奈节点太多差点被搞死·· 还好我有运维神器Ansible，一次编撰终生可用啊！而且这玩意儿等幂特性扩容回滚 So Easy！！闲话少说开搞！安装Ansible：看官方文档去：http://www.ansible.com.cn/index.html好像这个主控端不支持Windows？大家虚拟机装个Ubuntu吧。闲话少扯直...

1492 2017-12-06