概述
最近在看lucene,昨天看到使用Tika提取文本,把安装过程记录下来,方便以后使用:
一句话解释Tika的作用:Tika是一个具有内置解析器用于处理各种文档类型的程序框架。该框架公布了标准的API供应用程序调用并完成从文档中提取文本和元数据,内置解析器会在后台通过外部程序提供的API与之交互。这使得你的应用程序能够针对不同的文档类型使用相同的API。当程序需要从文档中提取文本时,Tika会找到相应的解释器。
此处说明一点:
首先,要使用了Maven2编译生成的Tika,Tika的源码可以在http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.1-src.zip下到。不过默认不提供生成的jar包,需要自己用Maven2生成。因此要先配置Maven2,去http://maven.apache.org/download.html下载Maven2,我下载的是Maven2.2.1。
步骤一:配置Maven2
解压获得的apache-maven-2.2.1-bin.zip至你想要安置Maven2的目录,我解压至了"E:TikaTest",那么E:TikaTestapache-maven-2.2.1是Maven2的根目录。
配置名为M2_HOME的环境变量为上述路径;
配置名为M2的环境变量 为"%M2_HOME%bin";
最后在Path系统环境变量中添加%M2%一项。
当然,这些操作的前提是要正确安装好JDK。
经过上述步骤,在cmd中键入mvn --version看看是否正确输出。
步骤二:生成Tika目标文件
把下载好的apache-tika-1.1-src.zip解压到某特定目录,比如我的"E:TikaTest"则根目录是E:TikaTestapache-tika-1.1。打开apache-tika-1.1文件夹可以看到有三个文件夹分别为:tika-app,tika-parsers和tika-core。
其中,tika-core包含主要的接口和核心功能。
tika-parsers包含与外部解析器程序库对应的所有适配器。
tika-app将所有内容打包成一个单一的可执行的jar包。
cmd进入tika-core文件夹下,即E:TikaTestapache-tika-1.1tika-core,执行mvn clean install,经过耐心等待,就可以在tika-core目录下发现新增了一个target目录,该目录下有一个jar文件tika-core- 0.5.jar,这就是我们要的了。
紧接着,用同样的方法分别进入到tika-app和tika-parsers文件夹下,使用同样的命令生成jar包。
tika-app-0.5.jar,tika-parsers-0.5.jar和tika-core- 0.5.jar就是我们后面内容所需要的。
最后
以上就是懦弱月饼为你收集整理的Tika是什么?如何安装Tika?的全部内容,希望文章能够帮你解决Tika是什么?如何安装Tika?所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复