知识点:
1 Beautifulsoup库:自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
2 urllib库:主要用到request.urlopen(url)方法,请求爬取一个网站。
3 类的设计(属性和方法)
代码:
import urllib.request
from bs4 import Beautifulsoup
news = “https://sports.sina.com.cn/”
Scraper(news).scrape()
class Scraper:
def init(self, site):
self.site = site
def scrape(self):
html = urllib.request.urlopen(self.site).read()
parser = “html.parser”
bs = Beautifulsoup(html, parser)
for tag in bs.find_all(“a”):
print(tag.get(“href”))
最后
以上就是优秀马里奥最近收集整理的关于第1个爬虫程序的全部内容,更多相关第1个爬虫程序内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复