我是靠谱客的博主 大胆曲奇,最近开发中收集的这篇文章主要介绍从0开始学习爬虫,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

爬虫介绍

    • 网络爬虫介绍:
    • 2.想要学爬虫先学习写爬虫必须要学会的技能 就是审查元素了
    • 3.说了那么多开始写一点简单的代码吧!

网络爬虫介绍:

1.网络爬虫,又称为网页蜘蛛,它可以根据网页的URL爬去网页内的内容URL就是在浏览器里输入的网址,自动地抓取万维网信息的程序或者脚本.
例如:https://www.baidu.com
URL的格式由3部分来组成
1(protocol): // 2(hostname[:port]) /3(path) /

  • (1).第一部分就是协议,例如百度使用的就是https协议上面举得例子百度就是使用https协议的;

  • (2).第二部分是主机名还有端口号,协议为http的默认端口号为80
    例如http://www.baidu.com:80这样也是可以访问百度的 而https的默认端口为443
    例如https://www.baidu.com:443

  • (3).第三部分就是你要访问的地方的具体地址
    例如 https://www.bilibili.com/ 这是哔哩哔哩的首页 在首页后面加上ranking https://www.bilibili.com/ranking/ 就是热播排行榜了
    举个例子如果你想找你朋友一起去外面玩 但是你只知道他在xx小区但是你不知道在他在哪个几楼 单元 几零几
    https://www.bilibili.com/这个首页就相当于你知道你朋友的家在的小区 而ranking是你朋友的详细地址
    你只去你朋友在的小区是找不到你朋友的 如果你知道你朋友在几号楼哪个单元然后几零几(https://www.bilibili.com/ +
    ranking)是不是就可以直接去你朋友家里找他了

2.想要学爬虫先学习写爬虫必须要学会的技能 就是审查元素了

审查元素是Google Chrome浏览器提供的一项服务功能,用户只需右键点击“审查元素”(名字),即可打开Chrome Inspector,获得网页各种元素的加载时间、javascript函数、object等信息。

(强烈推荐大家使用谷歌浏览器,不要用别的浏览器)
按F12可以出现这个界面
在这里插入图片描述
或者右键页面选择检查也可以打开审查元素
在这里插入图片描述

浏览器就是作为客户端从服务器端获取信息,然后将信息解析,并展示给我们的。审查元素是可以改变已经加载出来的代码的,但是我们修改的信息不会回传到服务器,服务器存储的 HTML 信息不会改变,只要你一刷新它你改的代码就会全部消失。

3.说了那么多开始写一点简单的代码吧!

  1. 首先大家先把requests安装了
  2. 在终端中输入pip install requests这里建议如果没改pip镜像源的话先去改一下镜像源,具体怎么改镜像源可以去查一查
    或者可以使用pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/这个是清华的镜像源
    如果没改镜像源的话下载会很慢
  3. requests库基本方法介绍
方法说明
requests.request()构造一个请求,支撑一下各方法的基础方法
requests.get()获取HTML网页的主要方法,对应于HTTP的GET
requests.head()获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch()向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete()向HTML页面提交删除请求,对应于HTTP的DELETE
# 导requests包
import requests
if __name__ == '__main__':
    page = "https://tuijian.hao123.com/?type=rec/"
    req = requests.get(page)
    # 编码可以打开检查元素搜charset 
    req.encoding = 'utf-8'
    print(req.text)

获取到了头条推荐的源代码,这就是一个最最最简单的爬虫了。

最后

以上就是大胆曲奇为你收集整理的从0开始学习爬虫的全部内容,希望文章能够帮你解决从0开始学习爬虫所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(35)

评论列表共有 0 条评论

立即
投稿
返回
顶部