爬虫项目学习 - 每天开心一点

HTTP 基本原理

HTTP请求响应状态码

2023/01/04 六月 551

15 分钟用 ML 破解一个验证码系统

人人都恨验证码——那些恼人的图片，显示着你在登陆某网站前得输入的文本。设计验证码的目的是，通过验证你是真实的人来避免电脑自动填充表格。但是随着深度学习和计算机视觉的兴起，现在验证码常常易被攻破。

2018/02/03 六月 1174

揭密微信跳一跳小游戏那些外挂

本着钻研技术的学习态度，我对目前几款比较火的外挂进行了源码分析，总结出了它们的一些破解思路，其实这些作者都并非恶意，作为一个程序员，还有什么比用技术挑战规则，突破极限要有成就感呢？

2018/01/24 六月 1071

Scrapy分布式的部署详解

2018/01/20 六月 1207

Scrapy分布式架构搭建抓取知乎

2018/01/20 六月 1155

Scrapy分布式原理及Scrapy-Redis源码解析

2018/01/20 六月 1154

Python使用pyquery抓取股票行情数据实例

最近由于公司业务上的需求，要网络采集一些数据，并格式化以供应用的调取，前期想到用正则表达式来对网页格式串进行过滤和抓取，在进行了一系列尝试之后放弃，原因是太繁琐了，而且对于每种网页都需要写特定的表达式，不可通用。后面在查找相关资料时，发现python也提供一个类似jquery的包，叫做pyquery，可用以进行网络抓取，遂安装研究了一下，发现确实挺好用，不...

2017/12/30 六月 1284

用requests爬虫拒绝301/302页面的重定向而拿到Location(重定向页面URL)的方法

def yunsite(): 'url' headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 'Accept-Encoding': 'gzip, deflate, sdch, br', ...

2017/12/18 六月 1293

pyspider 爬虫教程

pyspider简介pyspider 爬虫教程（一）：HTML 和 CSS 选择器pyspider 爬虫教程（二）：AJAX 和 HTTPpyspider 爬虫教程（三）：使用 PhantomJS 渲染带 JS 的页面

2017/12/08 六月 1171

小白学爬虫-批量部署Splash负载集群

部署公司生产环境的Splash集群无奈节点太多差点被搞死·· 还好我有运维神器Ansible，一次编撰终生可用啊！而且这玩意儿等幂特性扩容回滚 So Easy！！闲话少说开搞！安装Ansible：看官方文档去：http://www.ansible.com.cn/index.html好像这个主控端不支持Windows？大家虚拟机装个Ubuntu吧。闲话少扯直...

2017/12/06 六月 1491

订阅博客

博客分类

数据库
- MySQL
- PostgreSQL
- Oracle
- NoSQL
  - MongoDB
  - Redis
- SQL Server
- 数据分析实战
系统运维
- linux
  - linux基础知识
  - linux系统优化
- osx
- windows
- docker
Python技术
JAVA
- Kotlin
- J2EE
- Android
- Dart
- Flutter
Delphi系列
- delphi7
- RAD Studio XE
  - delphi XE
项目实施
互联网时代
Web前端设计