我是靠谱客的博主 俊秀御姐,这篇文章主要介绍电影资源详细信息爬取,现在分享给大家,希望可以做个参考。

获取永久资源网电影分类下每页的URL

复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
from selenium import webdriver def reseach_list(): driver=webdriver.Chrome() #调用chrome浏览器 head_url = 'http://www.yongjiuzy1.com/?m=vod-type-id-' middle_url = '-pg-' till_url = '.html' url_list = [] href_list = [] movie_name = [] main_data =[] for i in range(1): for j in range(1): url_list.append(head_url+str(i+1)+middle_url+str(j+1)+till_url) for items in url_list: driver.get(items) for link in driver.find_elements_by_xpath('//*[@id="data_list"]/tr/td[1]/a'): href_list.append(link.get_attribute('href')) movie_name.append(link.get_attribute('text')) main_data.append(href_list) main_data.append(movie_name) return main_data reseach_list()

获取电影名

复制代码
1
2
3
4
5
6
7
8
9
main_data = reseach_list() print(main_data[1]) L = [] for items in main_data[1]: L.append(items[0:-10]) print(L) main_data.append(L) print(main_data[2])

获取电影播放地址

复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
from selenium import webdriver driver=webdriver.Chrome() #调用chrome浏览器 href_list = main_data[0] movie_list = [] for link in href_list: driver.get(link) for link in driver.find_elements_by_xpath('/html/body/div[4]/div[2]/div/div/ul/li[2]/input'): movie_list.append(link.get_attribute('value')) # for url in driver.find_elements_by_xpath('/html/body/div[4]/div[2]/div/div/ul/li/input'): # url_list.append(link.get_attribute('textContent')) # print(url_list) def move(url_list): list_ = [] for url in url_list: list_.append(url[5:]) return list_ move(movie_list)

最后

以上就是俊秀御姐最近收集整理的关于电影资源详细信息爬取的全部内容,更多相关电影资源详细信息爬取内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(71)

评论列表共有 0 条评论

立即
投稿
返回
顶部