我是靠谱客的博主 虚拟黑猫,最近开发中收集的这篇文章主要介绍爬虫记(一) - 发送网络请求,解析JSON与静态HTML1.发送网络请求2.解析JSON数据3.解析HTML数据,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1.发送网络请求

 

import requests

r = requests.Session()
headers = {'user-agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:59.0) Gecko/20100101 Firefox/59.0'}
data = dict(username='123', password='456')
result = r.get('http://abc.com/login', headers=headers, params = data)
print(result.text)

2.解析JSON数据

import json

group_json = json.loads("{JSON字符串}")

json.loads

Deserialize s (a str, bytes or bytearray instance containing a JSON document) to a Python object using this conversion table.

反序列化(解析)一个包含JSON文档的字符串=>Python对象.

json.load

Deserialize fp (a .read()-supporting text file or binary file containing a JSON document) to a Python object using this conversion table.

解析一个文件(解析包含JSON文档的文本文件或者二进制文件)=>Python对象.

主要资料: 使用Python解析JSON详解 - 落叶的博客 - 博客园

个人感觉Python中的JSON解析最智能的是, 能够生成Dict和List组合的对象, 比其它强类型语言的JSON解析更加智能.

3.解析HTML数据

主要参考资料: python爬虫之PyQuery的基本使用 - Charles.L - 博客园

PyQuery的输入有三种①字符串②文件③网站

 - 原文第1节: python字符串3个引号是支持换行

PyQuery的查找:与JQuery类似,基于标签(直接写)、CSS类(.类名)、ID(#ID名)等进行查找, 在例子中发现类名用[].

- <PyQuery对象>('筛选条件')

- 之前做过H5开发,对这些比较熟悉

值的获取:①属性: <PyQuery对象>.attr.属性名, 或<PyQuery对象>.attr("属性名")②内容<PyQuery对象>.text()

操作: ①增删属性addClass(), removeClass()②修改/添加属性attr('key','val'), 添加修改css('key','val')③删除标签<>.find('筛选条件').remove()

最后

以上就是虚拟黑猫为你收集整理的爬虫记(一) - 发送网络请求,解析JSON与静态HTML1.发送网络请求2.解析JSON数据3.解析HTML数据的全部内容,希望文章能够帮你解决爬虫记(一) - 发送网络请求,解析JSON与静态HTML1.发送网络请求2.解析JSON数据3.解析HTML数据所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(53)

评论列表共有 0 条评论

立即
投稿
返回
顶部