mahout安装

287 阅读 0 评论 190 点赞

我是靠谱客的博主忧心母鸡，这篇文章主要介绍mahout安装，现在分享给大家，希望可以做个参考。

1.安装
[hadoop@h91 ~]$ tar -zxvf mahout-0.5-cdh3u5.tar.gz

[hadoop@h91 ~]$ vi .bash_profile
export MAHOUT_HOME=/home/hadoop/mahout-0.5-cdh3u5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-0.20.2-cdh3u5/conf
[hadoop@h91 ~]$ source .bash_profile

2.测试
[hadoop@h91 ~]$ cd mahout-0.5-cdh3u5/bin/
[hadoop@h91 bin]$ ./mahout

[hadoop@h91 hadoop-0.20.2-cdh3u5]$ bin/hadoop fs -mkdir /user/hadoop/testdata

[hadoop@h91 hadoop-0.20.2-cdh3u5]$ bin/hadoop fs -put /home/hadoop/mm.data /user/hadoop/testdata
（mm.data测试数据 WINDOWS下ISO目录中有）

[hadoop@h91 mahout-0.5-cdh3u5]$ bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
等待几分钟（做多次mp）

[hadoop@h91 mahout-0.5-cdh3u5]$ $HADOOP_HOME/bin/hadoop fs -ls output
Found 13 items
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:58 /user/hadoop/output/clusteredPoints
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:53 /user/hadoop/output/clusters-0
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:54 /user/hadoop/output/clusters-1
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:58 /user/hadoop/output/clusters-10
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:54 /user/hadoop/output/clusters-2
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:55 /user/hadoop/output/clusters-3
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:55 /user/hadoop/output/clusters-4
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-5
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-6
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:56 /user/hadoop/output/clusters-7
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:57 /user/hadoop/output/clusters-8
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:57 /user/hadoop/output/clusters-9
drwxr-xr-x   - hadoop supergroup          0 2015-08-16 14:53 /user/hadoop/output/data

[hadoop@h91 ~]$ mkdir /home/hadoop/mahout-0.5-cdh3u5/examples/output

[hadoop@h91 mahout-0.5-cdh3u5]$ $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir /user/hadoop/output/clusters-10 --pointsDir /user/hadoop/output/clusteredPoints --output $MAHOUT_HOME/examples/output/clusteranalyze.txt

[hadoop@h91 output]$ ls
clusteranalyze.txt

[hadoop@h91 output]$ more clusteranalyze.txt
VL代表这是一个cluster，n=57代表该cluster有57个点，c=[...]代表该cluster的中心向量点，r=[...]代表cluster的半径

==================================================
SequenceFile
1.对于某些应用而言，需要特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理，将每个二进制数据的大对象融入自己的文件中并不能实现很高的可扩展性，针对上述情况，Hadoop开发了一组更高层次的容器SequenceFile。

2. 考虑日志文件，其中每一条日志记录是一行文本。如果想记录二进制类型，纯文本是不合适的。这种情况下，Hadoop的SequenceFile类非常合适，因为上述提供了二进制键/值对的永久存储的数据结构。当作为日志文件的存储格式时，可以自己选择键，比如由LongWritable类型表示的时间戳，以及值可以是Writable类型，用于表示日志记录的数量。SequenceFile同样为可以作为小文件的容器。而HDFS和 MapReduce是针对大文件进行优化的，所以通过SequenceFile类型将小文件包装起来，可以获得更高效率的存储和处理。

3. SequenceFile类内部有两个比较主要的内部类分别是SequenceFile.Reader和SequenceFile.Writer