我是靠谱客的博主 俊秀御姐,最近开发中收集的这篇文章主要介绍电影资源详细信息爬取,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

获取永久资源网电影分类下每页的URL

from selenium import webdriver
def reseach_list():
driver=webdriver.Chrome() #调用chrome浏览器
head_url = 'http://www.yongjiuzy1.com/?m=vod-type-id-'
middle_url = '-pg-'
till_url = '.html'
url_list = []
href_list = []
movie_name = []
main_data =[]
for i in range(1):
for j in range(1):
url_list.append(head_url+str(i+1)+middle_url+str(j+1)+till_url)
for items in url_list:
driver.get(items)
for link in driver.find_elements_by_xpath('//*[@id="data_list"]/tr/td[1]/a'):
href_list.append(link.get_attribute('href'))
movie_name.append(link.get_attribute('text'))
main_data.append(href_list)
main_data.append(movie_name)
return main_data
reseach_list()

获取电影名

main_data = reseach_list()
print(main_data[1])
L = []
for items in main_data[1]:
L.append(items[0:-10])
print(L)
main_data.append(L)
print(main_data[2])

获取电影播放地址

from selenium import webdriver
driver=webdriver.Chrome() #调用chrome浏览器
href_list = main_data[0]
movie_list = []
for link in href_list:
driver.get(link)
for link in driver.find_elements_by_xpath('/html/body/div[4]/div[2]/div/div/ul/li[2]/input'):
movie_list.append(link.get_attribute('value'))
#
for url in driver.find_elements_by_xpath('/html/body/div[4]/div[2]/div/div/ul/li/input'):
#
url_list.append(link.get_attribute('textContent'))
# print(url_list)
def move(url_list):
list_ = []
for url in url_list:
list_.append(url[5:])
return list_
move(movie_list)

最后

以上就是俊秀御姐为你收集整理的电影资源详细信息爬取的全部内容,希望文章能够帮你解决电影资源详细信息爬取所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(38)

评论列表共有 0 条评论

立即
投稿
返回
顶部