当前位置：首页 > 资讯 >

Python爬虫教程-7：提取数据到PandasDataFrame

2023-04-24 来源:飞速影视

Pandas 是一个开放源码、BSD许可的库，为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。把抓取到的数据存储到Pandas DataFrame中，可以进一步对数据进行分析，是一种常见做法。
本章例子，将从豆瓣网站上抓取北美电影排行榜，并放进DataFrame中。

抓取网页数据

豆瓣网站上的北美电影排行榜网址，北美电影排行榜在右下边栏。
import requestsfrom bs4 import BeautifulSouppage = requests.get("https://movie.douban.com/chart")soup = BeautifulSoup(page.content, "html.parser")titles_tags = soup.select("ul#listCont1 > li a")titles = [(pt.get_text()).strip() for pt in titles_tags]print(titles)revenue_tags = soup.select("ul#listCont1 > li span")revenues = [(pt.get_text()).strip() for pt in revenue_tags]print(revenues)
复制
输出
["速度与激情：特别行动", "在黑暗中讲述的恐怖故事", "狮子王", "爱探险的朵拉：消失的黄金城", "好莱坞往事", "我在雨中等你", "地狱厨房", "蜘蛛侠：英雄远征", "玩具总动员4", "带来灵魂：电影"]["2540万", "2080万", "2000万", "1700万", "1160万", "810万", "551万", "530万", "440万", "230万"]
复制

提取到Pandas DataFrame

调用DataFrame类构造方法，并传入每个项列表：
import pandas as pdmovie_rank = pd.DataFrame({ "title": titles, "revenue": revenues})movie_rank
复制

1 2 查看全文

Python爬虫教程-7：提取数据到PandasDataFrame

抓取网页数据

提取到Pandas DataFrame

教数学的体育老师

阴阳路7：撞到正

欢迎来到实力至上主义教室

迈克尔·杰克逊的旅程：由摩城到《墙外》

欢迎来到实力至上主义教室第二季

阿瓦提和阿凡提

爬山虎

匍匐爬行