当前位置：首页 > 资讯 >

你真的了解爬虫吗？(2)

2023-05-02 来源:飞速影视

其实这个Robots协议属于一个君子协议，对于爬虫者来说，基本上就是口头协议，你违反了它你有可能会被追究法律责任，但不违反它，爬虫将是爬不到什么数据，所以平时双方都是睁一只闭一眼，不要太嚣张就可以了。

二、爬虫的基本流程

1.爬虫的4步
爬虫是怎么干活的？爬虫程序大致上可以分为四步走：
①发起请求
通过HTTP库向目标站点发起请求，即发送一个Request,请求可以包含额外的headers等信息，等待服务器响应。
②获取响应内容
如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML、Json字符串和二进制数据(如图片视频)等类型。
③解析内容
得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是Json,可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。
④保存数据
保存的数据样式很多，可以保存为文本，也可以保存至数据库，或者保存为特定格式的文件。
基本上这就是爬虫要遵循的四步了。
2.Request和Response
Request和Response是爬虫中最重要的一部分，Request和Response是什么关系？它们两的关系如下图：

简单理解一下，当我们在电脑的浏览器上搜索某个东西的时候，比如前面的所说的在百度搜索“Python”，你点击百度一下，就已经向百度的服务器发送了一个Request请求，Request包含了很多的信息，比如身份信息、请求信息等等，服务器接收请求之后做判断，然后返回一个Response给我们的电脑，这其中也包含了很多信息，比如请求成功与否，比如我们请求的信息结果（文字、图片和视频等等）。
这样讲应该很好理解吧？接下来我们再好好去看一下Request和Response。

1 2 3 4 5 ...7 查看全文

你真的了解爬虫吗？(2)

二、爬虫的基本流程

你恋爱了吗？

你遭难了吗？

爱我你怕了吗

这样爱你错了吗

安娜·妮可·史密斯：你们不了解我

真的要结婚吗

2.0T插电式混动+1032km超长续航！传祺E9，你心动了吗

我在你的未来吗