我是靠谱客的博主 忧心母鸡,最近开发中收集的这篇文章主要介绍mahout安装,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1.安装
[hadoop@h91 ~]$ tar -zxvf mahout-0.5-cdh3u5.tar.gz

[hadoop@h91 ~]$ vi .bash_profile
export MAHOUT_HOME=/home/hadoop/mahout-0.5-cdh3u5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-0.20.2-cdh3u5/conf
[hadoop@h91 ~]$ source .bash_profile


2.测试
[hadoop@h91 ~]$ cd mahout-0.5-cdh3u5/bin/
[hadoop@h91 bin]$ ./mahout

[hadoop@h91 hadoop-0.20.2-cdh3u5]$ bin/hadoop fs -mkdir /user/hadoop/testdata

[hadoop@h91 hadoop-0.20.2-cdh3u5]$ bin/hadoop fs -put /home/hadoop/mm.data /user/hadoop/testdata
(mm.data测试数据 WINDOWS下ISO目录中有)


[hadoop@h91 mahout-0.5-cdh3u5]$ bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
等待几分钟(做多次mp)

[hadoop@h91 mahout-0.5-cdh3u5]$ $HADOOP_HOME/bin/hadoop fs -ls output
Found 13 items
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:58 /user/hadoop/output/clusteredPoints
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:53 /user/hadoop/output/clusters-0
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:54 /user/hadoop/output/clusters-1
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:58 /user/hadoop/output/clusters-10
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:54 /user/hadoop/output/clusters-2
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:55 /user/hadoop/output/clusters-3
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:55 /user/hadoop/output/clusters-4
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-5
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-6
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-7
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:57 /user/hadoop/output/clusters-8
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:57 /user/hadoop/output/clusters-9
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:53 /user/hadoop/output/data

[hadoop@h91 ~]$ mkdir /home/hadoop/mahout-0.5-cdh3u5/examples/output

[hadoop@h91 mahout-0.5-cdh3u5]$ $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir /user/hadoop/output/clusters-10 --pointsDir /user/hadoop/output/clusteredPoints --output $MAHOUT_HOME/examples/output/clusteranalyze.txt

[hadoop@h91 output]$ ls
clusteranalyze.txt

[hadoop@h91 output]$ more clusteranalyze.txt
VL代表这是一个cluster,n=57代表该cluster有57个点,c=[...]代表该cluster的中心向量点,r=[...]代表cluster的半径

==================================================
SequenceFile
1.对于某些应用而言,需要特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理,将每个二进制数据的大对象融入自己的文件中并不能实现很高的可扩展性,针对上述情况,Hadoop开发了一组更高层次的容器SequenceFile。

2. 考虑日志文件,其中每一条日志记录是一行文本。如果想记录二进制类型,纯文本是不合适的。这种情况下,Hadoop的SequenceFile类非常合适,因为上述提供了二进制键/值对的永久存储的数据结构。当作为日志文件的存储格式时,可以自己选择键,比如由LongWritable类型表示的时间戳,以及值可以是Writable类型,用于表示日志记录的数量。SequenceFile同样为可以作为小文件的容器。而HDFS和 MapReduce是针对大文件进行优化的,所以通过SequenceFile类型将小文件包装起来,可以获得更高效率的存储和处理。

3. SequenceFile类内部有两个比较主要的内部类分别是SequenceFile.Reader和SequenceFile.Writer



最后

以上就是忧心母鸡为你收集整理的mahout安装的全部内容,希望文章能够帮你解决mahout安装所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(55)

评论列表共有 0 条评论

立即
投稿
返回
顶部