requests 抓取分页评论数据使用pandas写入csv

337 阅读 0 评论 223 点赞

我是靠谱客的博主现实外套，这篇文章主要介绍requests 抓取分页评论数据使用pandas写入csv，现在分享给大家，希望可以做个参考。

import requests
from lxml import etree
import pandas as pd
import numpy as np

def comment_gain(url):
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}
    r = requests.get (url ,headers=headers )
    t = r.text
    s = etree.HTML ( t )
    x = (s.xpath ( '//*[@id="comments"]/ul[1]/li/div[2]/p/span/text()' )) 
    print(x)
    df = pd.DataFrame ( x )
    return df
if __name__ == '__main__':
    url = 'https://book.douban.com/subject/34857216/comments/hot?p={}'
    for page in range ( 1, 4 ):
       df = comment_gain(url.format(page))
       # path : 你要保存文件的地址
       df.to_csv ( r'path/duanping6.csv', encoding="utf_8_sig",mode='a' )

最后

以上就是现实外套最近收集整理的关于requests 抓取分页评论数据使用pandas写入csv的全部内容，更多相关requests内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(223)

本文分类：Other
浏览次数：337 次浏览
发布日期：2024-07-03 06:45:01

相关文章

Python网络爬虫与信息提取（二）—— BeautifulSoupBeautifulSoup安装Beautiful Soup库的使用基于bs4库的HTML内容遍历方法基于bs4库的HTML格式输出信息标记的三种形式信息提取的一般方法基于bs4库的HTML内容查找方法

Python网络爬虫与信息提取（二）—— BeautifulSoupBeautifulSoup安装Beautiful Soup库的使用基于bs4库的HTML内容遍历方法基于bs4库的HTML格式输出信息标记的三种形式信息提取的一般方法基于bs4库的HTML内容查找方法

BeautifulSoup基本用法总结

BeautifulSoup基本用法总结

爬虫小白第一篇：利用requests和lxml提取楼盘信息

爬虫小白第一篇：利用requests和lxml提取楼盘信息

数据可视化分析-- coding: utf-8 --@Author: Kun

数据可视化分析-- coding: utf-8 --@Author: Kun

requests 抓取分页评论数据使用pandas写入csv

requests 抓取分页评论数据使用pandas写入csv

python etree pandas_python – pandas.DataFrame.from_dict不使用OrderedDict保留顺序

python etree pandas_python – pandas.DataFrame.from_dict不使用OrderedDict保留顺序

Python爬取表结构数据---pandas快速获取

Python爬取表结构数据---pandas快速获取

【数据挖掘】3、NumPy与Pandas 清洗、爬虫、 SciKitLearn 变换、可视化一、NumPy二、Pandas三、爬虫采集四、ETL五、数据变换六、可视化

【数据挖掘】3、NumPy与Pandas 清洗、爬虫、 SciKitLearn 变换、可视化一、NumPy二、Pandas三、爬虫采集四、ETL五、数据变换六、可视化

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部