我是靠谱客的博主 懦弱月饼,最近开发中收集的这篇文章主要介绍Tika是什么?如何安装Tika?,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

最近在看lucene,昨天看到使用Tika提取文本,把安装过程记录下来,方便以后使用:

一句话解释Tika的作用:Tika是一个具有内置解析器用于处理各种文档类型的程序框架。该框架公布了标准的API供应用程序调用并完成从文档中提取文本和元数据,内置解析器会在后台通过外部程序提供的API与之交互。这使得你的应用程序能够针对不同的文档类型使用相同的API。当程序需要从文档中提取文本时,Tika会找到相应的解释器。

此处说明一点:

首先,要使用了Maven2编译生成的Tika,Tika的源码可以在http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.1-src.zip下到。不过默认不提供生成的jar包,需要自己用Maven2生成。因此要先配置Maven2,去http://maven.apache.org/download.html下载Maven2,我下载的是Maven2.2.1。

步骤一:配置Maven2

解压获得的apache-maven-2.2.1-bin.zip至你想要安置Maven2的目录,我解压至了"E:TikaTest",那么E:TikaTestapache-maven-2.2.1是Maven2的根目录。

配置名为M2_HOME的环境变量为上述路径;

配置名为M2的环境变量 为"%M2_HOME%bin";

最后在Path系统环境变量中添加%M2%一项。 

当然,这些操作的前提是要正确安装好JDK。

经过上述步骤,在cmd中键入mvn --version看看是否正确输出。

步骤二:生成Tika目标文件

把下载好的apache-tika-1.1-src.zip解压到某特定目录,比如我的"E:TikaTest"则根目录是E:TikaTestapache-tika-1.1。打开apache-tika-1.1文件夹可以看到有三个文件夹分别为:tika-app,tika-parsers和tika-core。

其中,tika-core包含主要的接口和核心功能。

            tika-parsers包含与外部解析器程序库对应的所有适配器。

            tika-app将所有内容打包成一个单一的可执行的jar包。

cmd进入tika-core文件夹下,即E:TikaTestapache-tika-1.1tika-core,执行mvn clean install,经过耐心等待,就可以在tika-core目录下发现新增了一个target目录,该目录下有一个jar文件tika-core- 0.5.jar,这就是我们要的了。

紧接着,用同样的方法分别进入到tika-app和tika-parsers文件夹下,使用同样的命令生成jar包。

tika-app-0.5.jar,tika-parsers-0.5.jar和tika-core- 0.5.jar就是我们后面内容所需要的。
   


最后

以上就是懦弱月饼为你收集整理的Tika是什么?如何安装Tika?的全部内容,希望文章能够帮你解决Tika是什么?如何安装Tika?所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(36)

评论列表共有 0 条评论

立即
投稿
返回
顶部