我是靠谱客的博主 笑点低豆芽,最近开发中收集的这篇文章主要介绍python爬取内容重复输出_python3爬虫重复返回第一页,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

预爬取“i春秋”课程栏目内 16页中的所有课程名称。

网页采取的是POST。

简单地用requests模块写出了文件,然而返回结果全是i春秋的第一页的课程名称。

请问是我代码问题还是i春秋的防爬机制比较强?

希望大佬们能给点指导,代码我就贴下面了。

import requests

import json

url_begining = 'https://www.ichunqiu.com/courses/ajaxCourses?IsExp=&courseDiffcuty=&courseTag=&orderDirection=&orderField=&pageIndex='

def request_all(url):

print(url)

headers = {

'Accept': 'application/json, text/javascript, */*; q=0.01',

'Accept-Encoding': 'gzip, deflate, br',

'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

'Host': 'www.ichunqiu.com',

'Referer': 'https://www.ichunqiu.com/courses',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:56.0) Gecko/20100101 Firefox/56.0',

'X-Requested-With': 'XMLHttpRequest',

}

r = requests.get(url = url, headers = headers2)

data = json.loads(r.text)

name_long = len(data['course']['result'])

for i in range(name_long):

print(data['course']['result'][i]['courseName'])

for i in range(1,17):

url = url_begining + str(i) + '&producerId=&tagType='

request_all(url)

最后

以上就是笑点低豆芽为你收集整理的python爬取内容重复输出_python3爬虫重复返回第一页的全部内容,希望文章能够帮你解决python爬取内容重复输出_python3爬虫重复返回第一页所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(30)

评论列表共有 0 条评论

立即
投稿
返回
顶部