我是靠谱客的博主 难过河马,最近开发中收集的这篇文章主要介绍python 爬虫(一) requests+BeautifulSoup 爬取简单网页代码示例,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页。
详细介绍都在代码中注释了,大家可以参阅。
# -*- coding: utf-8 -*- """ Created on Thu Jul 5 20:48:25 2018 @author: brave-man blog: http://www.cnblogs.com/zrmw/ python3 + anaconda(Spyder) + resquests + BeautifulSoup 这里环境用的就是昨天讲的 anaconda 下的 Spyder,非常方便,谁用谁知道 """ import requests from bs4 import BeautifulSoup # from termcolor import colored # 控制台输出文本颜色控制,网络不太好,没有安装termcolor,不过在公司测试过,函数传参应该没有问题 # print(colored("abc", "red")) # 通过requests库中的get方法获取整个响应页面,存放在res中 res = requests.get("https://www.cnblogs.com/zdong0103/p/8492779.html") # (1) res.encoding = "utf-8" soup = BeautifulSoup(res.text, "html.parser") # 这时候如果打印的soup的话,会在控制台中输出整个响应页面的源代码 # print(soup) # 如果打印的是乱码,则可以在 (1) 处添加 (1) 所示代码,设置编码格式,不过有时候是不需要的。 # 接下来对网页的源码进行剖析 """ 在网页中按 F12 查看网页源代码,文章标题在 class = "block_title" 里面, soup.select(".block_title") 获取的是一个列表,获取此列表的第一个元素, 所以 index = 0 , 从标签中获取文本一般使用 text 方法即可 同上,正文在 class = "blogpost-body" ... """ title = soup.select(".block_title")[0].text texts = soup.select(".blogpost-body")[0].text time = soup.select(".itemdesc span")[0].text author = soup.select("#header")[0].text print(title, author, time, texts)
发现自己表述能力真的是渣啊,慢慢提高吧。
转载于:https://www.cnblogs.com/zrmw/p/9270898.html
最后
以上就是难过河马为你收集整理的python 爬虫(一) requests+BeautifulSoup 爬取简单网页代码示例的全部内容,希望文章能够帮你解决python 爬虫(一) requests+BeautifulSoup 爬取简单网页代码示例所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复