Python爬虫教程-7:提取数据到PandasDataFrame

2023-04-24 来源:飞速影视
Pandas 是一个开放源码、BSD许可的库,为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。把抓取到的数据存储到Pandas DataFrame中,可以进一步对数据进行分析,是一种常见做法。
本章例子,将从豆瓣网站上抓取北美电影排行榜,并放进DataFrame中。

抓取网页数据


豆瓣网站上的北美电影排行榜网址,北美电影排行榜在右下边栏。
import requestsfrom bs4 import BeautifulSouppage = requests.get("https://movie.douban.com/chart")soup = BeautifulSoup(page.content, "html.parser")titles_tags = soup.select("ul#listCont1 > li a")titles = [(pt.get_text()).strip() for pt in titles_tags]print(titles)revenue_tags = soup.select("ul#listCont1 > li span")revenues = [(pt.get_text()).strip() for pt in revenue_tags]print(revenues)
复制
输出
["速度与激情:特别行动", "在黑暗中讲述的恐怖故事", "狮子王", "爱探险的朵拉:消失的黄金城", "好莱坞往事", "我在雨中等你", "地狱厨房", "蜘蛛侠:英雄远征", "玩具总动员4", "带来灵魂:电影"]["2540万", "2080万", "2000万", "1700万", "1160万", "810万", "551万", "530万", "440万", "230万"]
复制

提取到Pandas DataFrame


调用DataFrame类构造方法,并传入每个项列表:
import pandas as pdmovie_rank = pd.DataFrame({ "title": titles, "revenue": revenues})movie_rank
复制
相关影视
合作伙伴
本站仅为学习交流之用,所有视频和图片均来自互联网收集而来,版权归原创者所有,本网站只提供web页面服务,并不提供资源存储,也不参与录制、上传
若本站收录的节目无意侵犯了贵司版权,请发邮件(我们会在3个工作日内删除侵权内容,谢谢。)

www.fs94.org-飞速影视 粤ICP备74369512号