Python使用pyquery抓取股票行情数据实例

最近由于公司业务上的需求，要网络采集一些数据，并格式化以供应用的调取，前期想到用正则表达式来对网页格式串进行过滤和抓取，在进行了一系列尝试之后放弃，
原因是太繁琐了，而且对于每种网页都需要写特定的表达式，不可通用。
后面在查找相关资料时，发现python也提供一个类似jquery的包，叫做pyquery，可用以进行网络抓取，遂安装研究了一下，发现确实挺好用，不用写复杂的表达式即可
对数据进行抓取和过滤。

下面就以一个网页为例，来抓取指定格式的数据，并记录过程。

http://yunvs.com/list/mai_1.html

下面，我们就通过python的第三方扩展包pyquery来对此网页进行抓取。
我现在需要抓取股票与概念的关系，以便应用可以方便的通过股票查找其所属的概念，也可以通过热点概念定位相关股票。
但是从网页上我们可以看到，数据是以行的形式来展现的，单只股票后面跟了多个概念，且概念与概念之间以空格为分隔符，所以我们不仅仅要对数据进行抓取，同时还要对其格式进行处理。

1.安装pyquery包

具体的安装过程就不在这里详述了，python的包安装可以通过一个工具叫做easy_install来进行安装和管理，大家百度一下即可得到相关资料。
pyquery包解析html以来lxml包，所以这里要安装pyquery和lxml两个包才可使用pyquery.

pyquery的官网地址： http://pythonhosted.org//pyquery/api.html ，上面有详细的每个api的使用方法

2.导入pyquery包

from pyquery import PyQuery as pq
from lxml import etree

3.加载需要解析的数据源

v_source=pq(" ")   ---直接加载一个html串
v_source=pq(filename=path_to_html_file)                 ---加载位于指定路径下的html文件
v_source=pq(url='http://yunvs.com/list/mai_1.html')                ---加载url地址直接进行解析

在这里我们就直接使用第三种方式，直接加载网页来进行数据抓取，这样显得更直观和实用。

4.分析要解析的html网页代码

以 http://yunvs.com/list/mai_1.html 为例，我们要抓取股票和概念的数据，那么查看其网页源码，将要解析的代码段摘出来，如下：

      
        
        <
        tr 
        height
        =
        
        "30" 
        > 
        <
        td 
        align
        =
        
        "center"
        >
        <
        a 
        href
        =
        
        "http://yunvs.com/600401" 
        target
        =
        
        "_blank"
        >600401
        <
        /
        a
        >
        <
        /
        td
        >
        
        <
        td 
        align
        =
        
        "center"
        >
        <
        a 
        href
        =
        
        "http://yunvs.com/600401" 
        target
        =
        
        "_blank"
        >海润光伏
        <
        /
        a
        >
        <
        /
        td
        >
        
        <
        td 
        align
        =
        
        "center"
        >17876
        .8
        <
        /
        td
        >
        
        <
        td 
        align
        =
        
        "center"
        >2005
        .74
        <
        /
        td
        >
        
        <
        td 
        align
        =
        
        "center"
        >
        <
        font 
        color
        =
        
        "#C00"
        >
        <
        b
        >
        +791
        .28
        %
        <
        /
        b
        >
        <
        /
        font
        >
        <
        /
        td
        >
        
        <
        td 
        align
        =
        
        "left"
        >
        <
        a 
        href
        =
        
        "http://yunvs.com/theme/t640.html" 
        target
        =
        
        "_blank"
        >光伏
        <
        /
        a
        >
        &
        nbsp
        ;
        &
        nbsp
        ;
        <
        a 
        href
        =
        
        "http://yunvs.com/theme/t323.html" 
        target
        =
        
        "_blank"
        >太阳能
        <
        /
        a
        >
        &
        nbsp
        ;
        &
        nbsp
        ;
        <
        a 
        href
        =
        
        "http://yunvs.com/theme/t225.html" 
        target
        =
        
        "_blank"
        >阶梯电价受益
        <
        /
        a
        >
        &
        nbsp
        ;
        &
        nbsp
        ;
        <
        a 
        href
        =
        
        "http://yunvs.com/theme/t105.html" 
        target
        =
        
        "_blank"
        >多晶硅
        <
        /
        a
        >
        &
        nbsp
        ;
        &
        nbsp
        ;
        <
        a 
        href
        =
        
        "http://yunvs.com/theme/t285.html" 
        target
        =
        
        "_blank"
        >券商
        (龙头
        )
        <
        /
        a
        >
        &
        nbsp
        ;
        &
        nbsp
        ;
        <
        a 
        href
        =
        
        "http://yunvs.com/theme/t230.html" 
        target
        =
        
        "_blank"
        >金太阳工程
        <
        /
        a
        >
        &
        nbsp
        ;
        &
        nbsp
        ;
        <
        /
        td
        >
    
        <
        /
        tr
        >

    

可以看到，单只股票的数据都是包含在一个大的 tr标签里面，那么我们第一步过滤就是将网页里面所有的tr段截取出来。

第一步过滤可以这样写：

v_source=pq(url='http://yunvs.com/list/mai_1.html')

v_source('tr') ----这里就是将所有以tr打头的html段过滤出来

PS：如果报错UnicodeEncodeError: 'gbk' codec can't encode character,则在程序头部加入字符集支持 #coding=utf-8
基本上我们需要的核心块都被抓取出来了
我们也可以以text文本的方式输出，这样就去掉了html标记

#coding=utf-8
from pyquery import PyQuery as pq
from lxml import etree
from pyquery import PyQuery as pq
from lxml import etree


v_source=pq(url='http://yunvs.com/list/mai_1.html')  


for data in v_source('tr'):
    v_code = pq(data).find('td').eq(0).text()
    v_name = pq(data).find('td').eq(1).text()
    v_ind = pq(data).find('td').eq(5)

    for i in range(len(pq(v_ind).find('a'))):
        v_indname = pq(v_ind).find('a').eq(i).text()
        print v_code
        print v_name
        print v_indname

每天开心一点

每天开心一点

Python使用pyquery抓取股票行情数据实例

发表评论