电影资源详细信息爬取

316 阅读 0 评论 209 点赞

我是靠谱客的博主俊秀御姐，这篇文章主要介绍电影资源详细信息爬取，现在分享给大家，希望可以做个参考。

获取永久资源网电影分类下每页的URL

from selenium import webdriver
def reseach_list():
driver=webdriver.Chrome() #调用chrome浏览器
head_url = 'http://www.yongjiuzy1.com/?m=vod-type-id-'
middle_url = '-pg-'
till_url = '.html'
url_list = []
href_list = []
movie_name = []
main_data =[]
for i in range(1):
for j in range(1):
url_list.append(head_url+str(i+1)+middle_url+str(j+1)+till_url)
for items in url_list:
driver.get(items)
for link in driver.find_elements_by_xpath('//*[@id="data_list"]/tr/td[1]/a'):
href_list.append(link.get_attribute('href'))
movie_name.append(link.get_attribute('text'))
main_data.append(href_list)
main_data.append(movie_name)
return main_data
reseach_list()

获取电影名

main_data = reseach_list()
print(main_data[1])
L = []
for items in main_data[1]:
L.append(items[0:-10])
print(L)
main_data.append(L)
print(main_data[2])

获取电影播放地址

from selenium import webdriver
driver=webdriver.Chrome() #调用chrome浏览器
href_list = main_data[0]
movie_list = []
for link in href_list:
driver.get(link)
for link in driver.find_elements_by_xpath('/html/body/div[4]/div[2]/div/div/ul/li[2]/input'):
movie_list.append(link.get_attribute('value'))
#
for url in driver.find_elements_by_xpath('/html/body/div[4]/div[2]/div/div/ul/li/input'):
#
url_list.append(link.get_attribute('textContent'))
# print(url_list)
def move(url_list):
list_ = []
for url in url_list:
list_.append(url[5:])
return list_
move(movie_list)