当前位置：首页 > 资讯 >

你真的了解爬虫吗？

2023-05-02 来源:飞速影视

一、认识爬虫

1.什么是爬虫？
用一句话来给大家介绍大名鼎鼎的爬虫：请求网站并提取数据的自动化程序。
我们来拆开理解一下爬虫:
请求网站的意思就是向网站发送请求，比如去百度搜索关键字“Python”，这个时候我们的浏览器就会向网站发送请求；
提取数据，数据包括了图片、文字、视频等等，都叫数据，在我们发送请求之后，网站会呈现搜索结果给我们，这其实就是返回了数据，这时候我们就可以对数据进行提取；
自动化程序，也就是我们写的代码，实现了自动提取程数据，比如批量对返回的图片进行下载和保存，替代我们一张一张图片进行手工操作。
2.爬虫的分类
根据使用场景，爬虫可以分为三类：
①通用爬虫（大而全）
功能强大，采集面广泛，通常用于搜索引擎，比如百度浏览器就是一个很大的爬虫程序。
②聚焦爬虫（小而精）
功能相对单一，只针对特定网站的特定内容进行爬取，比如说去某个网站批量获取某些数据，这也是我们个人最常用的一种爬虫了。
③增量式爬虫（只采集更新后的内容）
这其实是聚焦爬虫的一个迭代爬虫，它只采集更新后的数据，对老数据是不采集，相当于一直存在并运行，只要有符合要求的数据更新了，就会自动爬取新的数据。
3.Robots协议
在爬虫中有一个叫Robots协议需要注意一下，又称为“网络爬虫排除标准”，它的作用就是网站告诉你哪些东西能爬，哪些不能爬。
这个Robots协议去哪看？一般情况下直接在网站首页网址后面加/robots.txt就能查看，比如百度的Robots协议就在https://www.baidu.com/robots.txt ，可以看到里面有很多网址都规定了不能爬，比如Disallow:/shifen/ 说明当前Disallow:/shifen以及Disallow:/shifen下面的子目录网页均不能爬。

1 2 3 4 5 ...7 查看全文

你真的了解爬虫吗？

一、认识爬虫

你恋爱了吗？

你遭难了吗？

爱我你怕了吗

这样爱你错了吗

安娜·妮可·史密斯：你们不了解我

真的要结婚吗

2.0T插电式混动+1032km超长续航！传祺E9，你心动了吗

我在你的未来吗