你真的了解爬虫吗?(7)

2023-05-02 来源:飞速影视

你真的了解爬虫吗?


五、爬虫能获取到什么样的数据?


爬虫能获取到什么样的数据?基本上可以分为这么几类:
①网页文档,如果HTML文档、Json格式文本等。
②图片,获取的是二进制文件,保存为图片格式即可。
③视频,也是二进制文件,保存为视频格式即可。
④其他的,反正其他能够看得见的东西,理论上都是可以用爬虫获取的,具体的话得看难度的大小。

六、如何解析数据?


从前面我们可以发送请求成功之后,网页会给我们返回很多的数据,有几千甚至几万条代码,那么如何在这么多的代码中找到我们想要的数据?常用的方法有以下几个:
①直接处理。当网页返回数据就是一些文本,就是我们想要的内容,不需要过滤处理,直接处理就可以。
②Json解析。如果网页返回的不是HTML数据是Json数据,那么就需要用到Json解析技术。
③正则表达式。如果返回的数据是符合正则表达式的数据,就可以用正则去做解析。
④其他解析方式。常用的有XPath、BeautifulSoup和PyQuery,这些都是爬虫常用的解析库。

七、怎么保存数据?


拿到数据后,常用的保存数据方法有以下几种:
①文本。可以直接保存为纯文本、EXCEL、Json、Xml等等类型的文本。
②关系型数据库。数据可以保存到关系型数据库,比如MySQL和Oracle等等数据库。
③非关系型数据库。如MongoDB、Readis和Key-Value形式储存。
④二进制文件。如图片、视频、音频等等直接保存为特定格式即可。

相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号