概述
知识点:
1 Beautifulsoup库:自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
2 urllib库:主要用到request.urlopen(url)方法,请求爬取一个网站。
3 类的设计(属性和方法)
代码:
import urllib.request
from bs4 import Beautifulsoup
news = “https://sports.sina.com.cn/”
Scraper(news).scrape()
class Scraper:
def init(self, site):
self.site = site
def scrape(self):
html = urllib.request.urlopen(self.site).read()
parser = “html.parser”
bs = Beautifulsoup(html, parser)
for tag in bs.find_all(“a”):
print(tag.get(“href”))
最后
以上就是优秀马里奥为你收集整理的第1个爬虫程序的全部内容,希望文章能够帮你解决第1个爬虫程序所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复