概述
预爬取“i春秋”课程栏目内 16页中的所有课程名称。
网页采取的是POST。
简单地用requests模块写出了文件,然而返回结果全是i春秋的第一页的课程名称。
请问是我代码问题还是i春秋的防爬机制比较强?
希望大佬们能给点指导,代码我就贴下面了。
import requests
import json
url_begining = 'https://www.ichunqiu.com/courses/ajaxCourses?IsExp=&courseDiffcuty=&courseTag=&orderDirection=&orderField=&pageIndex='
def request_all(url):
print(url)
headers = {
'Accept': 'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding': 'gzip, deflate, br',
'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
'Host': 'www.ichunqiu.com',
'Referer': 'https://www.ichunqiu.com/courses',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:56.0) Gecko/20100101 Firefox/56.0',
'X-Requested-With': 'XMLHttpRequest',
}
r = requests.get(url = url, headers = headers2)
data = json.loads(r.text)
name_long = len(data['course']['result'])
for i in range(name_long):
print(data['course']['result'][i]['courseName'])
for i in range(1,17):
url = url_begining + str(i) + '&producerId=&tagType='
request_all(url)
最后
以上就是笑点低豆芽为你收集整理的python爬取内容重复输出_python3爬虫重复返回第一页的全部内容,希望文章能够帮你解决python爬取内容重复输出_python3爬虫重复返回第一页所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复