博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫到底是什么?
阅读量:4571 次
发布时间:2019-06-08

本文共 389 字,大约阅读时间需要 1 分钟。

1. 简单来讲,就是通过软件访问目标网站,把目标网站上指定的信息获取到,一切都是通过软件实现。

    例如,如果想获取豆瓣网上,评分最靠前的250个影片的名称,而不用人工去写,可以参考下面的博客。

    http://www.cnblogs.com/huangguifeng/p/7632799.html

2. 基本思路是,通过python代码,掌握豆瓣前250名影片的html的规律。

    例如:第一页是:

 

    第二页是:

 

    第三页是:

 

   可以看出基本规律是,每页显示25条,250条就是10页,对应代码如下:

   

3.  访问每一页,获取http的返回结果,通过解析html文本内容,得到得分和电影名称。

     

  4. 期间,通过队列这种数据结构,将每页的解析结果记录到队列中,最后一次性显示队列内容。

      

 

转载于:https://www.cnblogs.com/zhouhaibing/p/7633010.html

你可能感兴趣的文章
QT的学习
查看>>
将不才则三军倾
查看>>
nginx设置开机启动
查看>>
priority_queue
查看>>
Octal Fractions
查看>>
Fragment 的生命周期及使用方法详解
查看>>
依赖注入及AOP简述(二)——工厂和ServiceLocator .
查看>>
《大道至简》第一章读后感
查看>>
.NET高性能框架Chloe.ORM-完美支持MySql
查看>>
Scalaz(24)- 泛函数据结构: Tree-数据游览及维护
查看>>
Scalaz(55)- scalaz-stream: fs2-基础介绍,fs2 stream transformation
查看>>
dede:channelartlist currentstyle栏目高亮显示方法
查看>>
程序员眼睛的保护(爱护眼睛,你我做起)
查看>>
Python之路【第六篇】:socket
查看>>
android的用户定位(一)
查看>>
Java 多生产者消费者问题
查看>>
常用的JS技术1
查看>>
商品搜索
查看>>
upc 9519 New Game
查看>>
oracle 用sql实现密码的加密,解密
查看>>