我是靠谱客的博主 超帅小伙,最近开发中收集的这篇文章主要介绍2022小木虫与研招网调剂监视脚本前言背景Python增量式爬虫结语声明,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

前言

转眼间22年的调剂就要结束了,或有不甘,亦是注定,22考研失败了。考研前心比天高,考试时七上八下,考试后心如死灰;调剂前信心满满,调剂中一头雾水,随着各种邮件石沉大海,最后也释然接受失败的命运。准备时心比天高,眼高手低,忽略数学的基础题;按照往年真题的出题思路简单复习专业课,而并不搞懂其中原理;虽然已经注意保暖,却还是在考试的过程中受寒,出考场呕吐;亦或是专业课题型大改,给分不高。每一次的失败都会很多原因,但最根本的还是自己复习没有效果:数学一本题集都没写,甚至连参考书目的课后习题都没有做完,英语单词简单看看,专业课简单背背。简简单单的努力,简简单单的分数,除了花费了不少时间外,没有什么需要抱怨。

人的一生没有多少能够改变自己赛道的机会,高考一次,研究生一次,博士一次,亦或是其他诸如公务员考试等等。虽然这些考试已经存在了很多年,未来已经继续存在着,但是人的精力却是一去不返了。如果在一二十岁的年纪里就开始选择了妥协、打折扣,那么接下来的一生里将不知道有多少唏嘘。不妥协、不将就是我在调剂期间坚持如一的思想,即使没有希望(分数太少),拥有其他选择(其他研究原联系)却仍然选择走到底。这就是小时候老是被称作別劲头的后遗症吧(手动狗头)。

作者不是一个善于抒情的人,写了一点点就像是没写什么,说了一点点与没说一样。还是先进入正题吧。

背景

平台介绍

小木虫是一个科研交流平台,是中国科研界中最大的一个论坛,虽然其已经十分老旧,但仍然能够从该平台上找到可能对我们有帮助的信息。研招网就是研究生考试的官方指定调剂平台,调剂上的大部分事情都是通过该网站完成。

需求介绍

考研的调剂是一场信息战,更早的掌握调剂信息有利于联系老师,进行准备。时间充裕的话到是可以一天都守在电脑旁边,但这种做法太低效,浪费了太多的时间。那么如何有效地利用起时间并且不尽量不错过有价值的信息呢?
爬虫是一类能够自动抓取目标网页上指定信息的自动化程序。我们将能够自动的实时获取目标网站上更新数据的爬虫称为增量式网络爬虫。显而易见,增量式网络爬虫的能够能够满足我们的需要。

Python增量式爬虫

Python增量式网络爬虫是使用Python语言编写的一种爬虫。由于Python具有强大的第三库,与快速编写项目的能力,本项目将会使用Python作为主要编写语言。同时,为了避免分析繁杂的网页调用、生成关系,将会使用selenium进行自动化渲染。

需求环境

本项目的环境为Python3.6.7,在更高的Python版本中依然能够使用。使用的selenium第三方库的版本为3.141.0(更高版本的selenium删减了一些列方法,可能会造成项目运行错误)
此外,由于本项目使用selenium做自动化渲染,所以需要下载响应浏览器的驱动文件。本项目默认使用的是Firefox浏览器,其驱动可以在https://github.com/mozilla/geckodriver/releases 下载。
同时本项目将统一使用pushdeer应用作为通知。pushdeer源码地址:https://github.com/easychen/pushdeer pushdeer官网及下载地址:https://www.pushdeer.com/

小木虫监视脚本

小木虫监视脚本主要是针对于一个小木虫模块:导师招生。在这个模块中,需要招收调剂的导师将会提前发布条及相关信息,常见的都是通过科研团队的名义发布招生信息 。一般的话都是通过邮件联系。
具体脚本文件参见:https://github.com/Thesoul20/daily-work/blob/main/postgraduation/muchongzhaosheng_kui.py

研招网监视脚本

研招网监视主要是针对于研招网上公布的调剂信息:如当前三个平行志愿的状态,查询某学校/研究所发布的考研信息。通过使用selenium自动渲染,操控浏览器进行相应点击,切换标签等操作。
具体脚本文件参见:https://github.com/Thesoul20/daily-work/blob/main/postgraduation/yanzhao.py

监视设置

以上脚本的使用都不具有重复执行的功能,虽然在设计的过程中对最新添加的信息进行了优化设置,但距离能够实时监控还有一段距离。同时应该主要的是:调剂信息通常都会在发出后的两三天内有效,可以适当的将监视时间间隔扩大一点,减少目标网站的运营维护压力。
为了使本项目具有定时运行的功能,首先需要一台能够全天无间断运行的计算机(服务器),之后在服务器上设置定时。在Linux服务器中,可以通过使用crontab工具来实现。

crontab实现

crontab 能够定时运行linux系统上的脚本文件。故需要先编写出一个脚本文件,然后通过crontab 工具定是运行该脚本文件。本项目选择sh脚本,具体内容如下

# activate Python environment
cd python_env
pipenv shell
# enter the project directory and run the py file
cd project
python **.py

结语

调剂真的是一场大混战,各种分数,各种专业的都在一起竞争,很多大神(有科研,有奖项,有奖学金)也会下场求一个研究生名额。所以还是需要初试分考得高一点,面试的时候好好准备。准重要的是,定学校的时候好好调研,有没有歧视,存不存在压分。
再定学校之前请牢记一句话:选择大于努力。 定完学校之后,请认真准备,初试分数下来之后也请万不要懈怠,复试之前一定要抽出大量时间准备。要注意的点太多,相信也有不少文章会交代这些事情,但还是忍不住要交代一些事情。
由于本项目的目标网站都比较敏感,故本博客将写的比较随意,那些有Python基础的同志们应该会看懂,小白的话就先不要尝试了。同时应该提醒一下:请在调剂系统关闭的时候停止运行以上爬虫,减少目标网站服务器维护压力。设置自动检测时尽量把时间间隔跳的长一些。

声明

本项目仅供学习交流使用,如果侵犯了您的法律权利,请邮件联系floatingdream24@163.com。作者将会在一周内进行回复。

最后

以上就是超帅小伙为你收集整理的2022小木虫与研招网调剂监视脚本前言背景Python增量式爬虫结语声明的全部内容,希望文章能够帮你解决2022小木虫与研招网调剂监视脚本前言背景Python增量式爬虫结语声明所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(51)

评论列表共有 0 条评论

立即
投稿
返回
顶部