我是靠谱客的博主 怡然母鸡,这篇文章主要介绍java编程实现简单的网络爬虫示例过程,现在分享给大家,希望可以做个参考。

本项目中需要用到两个第三方jar包,分别为 jsoup 和 commons-io。

jsoup的作用是为了解析网页, commons-io 是为了把数据保存到本地。

1.爬取贴吧

第一步,打开eclipse,新建一个java项目,名字就叫做 pachong:

然后,新建一个类,作为我们程序的入口。

这个作为入口类,里面就写一个main方法即可。

复制代码
1
2
3
4
5
public class StartUp { public static void main(String[] args) { } }

第二步,导入我们的依赖,两个jar包:

右键jar包,Build path , add to Build path

接着,我们试着搜索一下动漫吧的数据:

https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5

复制代码
1
2
3
4
5
6
7
8
public class StartUp { public static void main(String[] args) { String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5"; Connection connect = Jsoup.connect(url); System.out.println(connect); } }

如果能够成功打印出来链接,说明我们的连接测试是成功的!

然后,我们调用connect的get方法,获取链接到的数据:

复制代码
1
Document document = connect.get();

这边需要抛出一个异常,而且是强制性的,因为有可能会获取失败。这边我们直接抛出去,不去捕获。

复制代码
1
2
3
4
5
6
7
8
9
10
11
public class StartUp { public static void main(String[] args) throws IOException { String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5"; Connection connect = Jsoup.connect(url); System.out.println(connect); Document document = connect.get(); System.out.println(document); } }

打印出来的结果:

可见,document对象装的就是一个完整HTML页面。

在这里,我们想要拿到的第一个数据,就是所有帖子的标题:

我们发现,每一个标题都是一个a连接,class为j_th_tit 。

下一步我们就考虑获取所有class为 j_th_tit 的元素。

我们发现,document对象给我们提供了 getElementsByClass 的方法,顾名思义,就是获取class为 XXX 的元素。

复制代码
1
Elements titles = document.getElementsByClass("j_th_tit");

接着,遍历titles,打印出每一个标题的名称:

复制代码
1
2
3
for (int i = 0; i < titles.size(); i++) { System.out.println(titles.get(i).attr("title")); }

当前代码:

复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import java.io.IOException; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; public class StartUp { public static void main(String[] args) throws IOException { String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5"; Connection connect = Jsoup.connect(url); Document document = connect.get(); Elements titles = document.getElementsByClass("j_th_tit"); for (int i = 0; i < titles.size(); i++) { System.out.println(titles.get(i).attr("title")); } } }

以上就是java编程实现简单的网络爬虫示例过程的详细内容,更多关于java实现网络爬虫的资料请关注靠谱客其它相关文章!

最后

以上就是怡然母鸡最近收集整理的关于java编程实现简单的网络爬虫示例过程的全部内容,更多相关java编程实现简单内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(140)

评论列表共有 0 条评论

立即
投稿
返回
顶部