概述
主要用了BeautifulSoup获取图片链接,然后使用urllib.retrieve()这个函数把图片下载到对应的文件夹
from
bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib
import re
import os
def get_web_bsobj(target_url):
req = urllib.request.Request(target_url)
h = urllib.request.urlopen(req)
bsobj = BeautifulSoup(h, "html5lib")
print(bsobj.title)
return
bsobj
def get_file_bsobj():
h = urlopen("file:c:/mzt.html")
bsobj = BeautifulSoup(h,'html5lib')
return bsobj
def download_img(target_url,file_path):
bsobj = get_web_bsobj(target_url)
print(str(bsobj.title.text)+"解析就绪")
content = bsobj.findAll('li',{"id":re.compile("comment-[0-9]+")},recursive=True);
my_img_url=[]
for i in content:
temp = i.find_all('a',{'class':'view_img_link'})
for j in temp:
print(j['href'])
my_img_url.append(j['href'])
print("###########")
print("^^^^^^^^^^^the next^^^^^^^^^^^^^")
j=1
for i in my_img_url:
print(i)
fn = file_path+str(j)+".jpg"
urllib.request.urlretrieve(i,fn)
j=j+1
print("saved %s" %j)
def run():
print("""
#########################################
#
煎蛋网妹子图片下载器
#####
#########################################
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
运行之前请先在D盘下面新建mzt文件夹 摸摸蛋
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
""")
start_page_num = int(input("输入页码:"))
total_page_num = int(input("输入要获取的页数"))
s_url = "http://jandan.net/ooxx/page-"
file_path = "d:/mzt/"
for i in range(total_page_num):
temp_dir = file_path + str(start_page_num) + "/"
print(temp_dir)
os.mkdir(temp_dir)
url = s_url + str(start_page_num)
start_page_num += 1
print(url)
download_img(url, temp_dir)
print("##################" + url + "下载完毕" + "################")
if __name__ == '__main__':
run()
最后
以上就是紧张歌曲为你收集整理的使用BeautifulSoup实现的图片爬虫的全部内容,希望文章能够帮你解决使用BeautifulSoup实现的图片爬虫所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复