概述
C++ 爬虫程序
项目描述
使用 C++ 编程语言,实现一个 爬虫程序,来对图片进行下载。
开发平台
Windows 10
流程介绍
-
先输入一个起始 URL 进入 URL 队列。
-
在当前路径下创建一个文件夹。
#include <Windows.h> CreateDirectory("./images", NULL);
-
获取到当前队列中首部的 URL。
-
解析 URL,主要作用是判断是否是正确的 URL,并且获取到服务器域名和资源路径。
-
连接服务器。
gethostbyname(std::string); // 通过这个函数获取到服务器的 IP 地址
-
获取网页源码。
向服务器发送 HTTP 请求。获取到网页源码。
-
使用正则表达式解析网页源码。
- 如果是图片 URL 就放进先前创建好的数组中。
- 如果是其他 URL 就放进队列中,让其后续循环处理。
-
下载图片。
循环遍历刚才存放图片的数组,重新对图片的 URL 建立连接和获取源码。
去除服务器返回的 HTTP 头部信息,将正文信息写到一个新创建的文件里,放到之前创建的文件夹。
源代码
GitHub
最后
以上就是难过皮皮虾为你收集整理的C++ 爬虫程序C++ 爬虫程序的全部内容,希望文章能够帮你解决C++ 爬虫程序C++ 爬虫程序所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复