爬虫到底是什么？-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

爬虫到底是什么？

阅读量：4571 次

发布时间：2019-06-08

本文共 389 字，大约阅读时间需要 1 分钟。

1. 简单来讲，就是通过软件访问目标网站，把目标网站上指定的信息获取到，一切都是通过软件实现。

例如，如果想获取豆瓣网上，评分最靠前的250个影片的名称，而不用人工去写，可以参考下面的博客。

http://www.cnblogs.com/huangguifeng/p/7632799.html

2. 基本思路是，通过python代码，掌握豆瓣前250名影片的html的规律。

例如：第一页是：

第二页是：

第三页是：

可以看出基本规律是，每页显示25条，250条就是10页，对应代码如下：

3. 访问每一页，获取http的返回结果，通过解析html文本内容，得到得分和电影名称。

4. 期间，通过队列这种数据结构，将每页的解析结果记录到队列中，最后一次性显示队列内容。

转载于:https://www.cnblogs.com/zhouhaibing/p/7633010.html

你可能感兴趣的文章

将不才则三军倾

nginx设置开机启动

Octal Fractions

Fragment 的生命周期及使用方法详解

依赖注入及AOP简述（二）——工厂和ServiceLocator .

《大道至简》第一章读后感

.NET高性能框架Chloe.ORM-完美支持MySql

Scalaz（24）－泛函数据结构： Tree-数据游览及维护

Scalaz（55）－ scalaz-stream: fs2-基础介绍，fs2 stream transformation

dede:channelartlist currentstyle栏目高亮显示方法

程序员眼睛的保护（爱护眼睛，你我做起）

Python之路【第六篇】：socket

android的用户定位(一)

Java 多生产者消费者问题

常用的JS技术1

upc 9519 New Game

oracle 用sql实现密码的加密，解密

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-10-18 05:51:42 当前IP: 3.22.66.236 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我