python如何示例爬虫代码

225 阅读 0 评论 149 点赞

我是靠谱客的博主安静小蚂蚁，这篇文章主要介绍python如何示例爬虫代码，现在分享给大家，希望可以做个参考。

python爬虫代码示例的方法：

1、urllib和BeautifuSoup

获取浏览器信息

from urllib import request
req = request.urlopen("http://www.baidu.com")
print(req.read().decode("utf-8"))
登录后复制

模拟真实浏览器：携带user-Agent头

(目的是不让服务器认为是爬虫，若不带此浏览器信息，则可能会报错)

req = request.Request(url) #此处url为某个网址
req.add_header(key,value)  #key即user-Agent，value即浏览器的版本信息
resp = request.urlopen(req)
print(resp.read().decode("utf-8"))
登录后复制

使用POST

导入urllib库下面的parse

from urllib import parse
登录后复制

使用urlencode生成post数据

postData = parse.urlencode([
    (key1,val1),
    (key2,val2),
    (keyn,valn)
])
登录后复制

使用post

request.urlopen(req,data=postData.encode("utf-8")) #使用postData发送post请求
resp.status  #得到请求状态
resp.reason #得到服务器的类型
登录后复制

完整代码示例（以爬取维基百科首页链接为例）

#-*- coding:utf-8 -*-
from bs4 import BeautifulSoup as bs
from urllib.request import urlopen 
import re
import ssl
#获取维基百科词条信息
ssl._create_default_https_context = ssl._create_unverified_context #全局取消证书验证
#请求URL，并把结果用utf-8编码
req = urlopen("https://en.wikipedia.org/wiki/Main page").read().decode("utf-8")
#使用beautifulsoup去解析
soup = bs(req,"html.parser")
# print(soup)
#获取所有href属性以“/wiki/Special”开头的a标签
urllist = soup.findAll("a",href=re.compile("^/wiki/Special"))
for url in urllist:
#去除以.jpg或.JPG结尾的链接
if not re.search(".(jpg|JPG)$",url["href"]):
#get_test()输出标签下的所有内容，包括子标签的内容；
#string只输出一个内容，若该标签有子标签则输出“none
print(url.get_text()+"----->"+url["href"])
# print(url)
登录后复制

2、存储数据到MySQL

安装pymysql

通过pip安装：

$ pip install pymysql
登录后复制

或者通过安装文件：

$ python setup.py install
登录后复制

使用

#引入开发包
import pymysql.cursors
#获取数据库链接
connection = pymysql.connect(host="localhost",
user = 'root',
password = '123456',
db ='wikiurl',
charset = 'utf8mb4')
try:
#获取会话指针
with connection.cursor() as cursor
#创建sql语句
sql = "insert into `tableName`(`urlname`,`urlhref`) values(%s,%s)"
#执行SQL语句
cursor.execute(sql,(url.get_text(),"https://en.wikipedia.org"+url["href"]))
#提交
connection.commit()
finally:
#关闭
connection.close()
登录后复制

3、爬虫注意事项

Robots协议（机器人协议，也称爬虫协议）全称是“网络爬虫排除协议”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取。一般在主页面下，如https://en.wikipedia.org/robots.txt

Disallow：不允许访问
allow：允许访问
登录后复制

以上就是python如何示例爬虫代码的详细内容，更多请关注靠谱客其它相关文章！

最后

以上就是安静小蚂蚁最近收集整理的关于python如何示例爬虫代码的全部内容，更多相关python如何示例爬虫代码内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：python
浏览次数：225 次浏览
发布日期：2022-11-20 07:42:01
本文链接：https://www.kaopuke.com/article/k-p-k_14_ujo_10_f1_12__7__10_3.html

python如何示例爬虫代码

最后

评论列表共有 0 条评论

发表评论取消回复

python如何示例爬虫代码

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复