guava读取配置文件_使用Guava MapSplitters配置Hadoop

333 阅读 0 评论 220 点赞

我是靠谱客的博主时尚啤酒，这篇文章主要介绍guava读取配置文件_使用Guava MapSplitters配置Hadoop，现在分享给大家，希望可以做个参考。

guava读取配置文件

在本文中，我们将为通过Context对象将配置参数传递给Hadoop Mapper提供新的思路。通常，我们在启动map-reduce作业时将配置参数设置为Context对象上的键/值对。然后在Mapper中，我们使用键来检索要用于我们的配置需求的值。不同之处在于，我们将在Context对象上设置一个特殊格式的字符串，并在Mapper中检索值时，使用Guava MapSplitter将格式化后的字符串转换为将用于获取配置参数的HashMap 。我们可能会问自己为什么要去解决这个麻烦？通过这种方式进行配置，我们可以在Context对象上设置单个键值对的情况下将多个参数传递给Mapper。为了说明一种可能的用法，我们将回顾上一篇文章，其中介绍了如何执行减少侧连接。该职位提出的解决方案存在两个问题。首先，我们假设要加入的键始终是文件中带分隔符的字符串中的第一个值。其次，我们假设每个文件使用相同的定界符。如果我们要从密钥位于每个文件中不同位置的文件中加入数据，而某些文件使用不同的定界符怎么办？另外，我们希望对输出的所有数据使用相同的定界符（如果有），而不考虑任何输入文件中使用的定界符。尽管这是人为的情况，但它将很好地用于演示目的。首先让我们研究一下MapSplitter类是什么以及如何使用它。

MapSplitter

MapSplitter是Splitter类中的一个嵌套类。 Spitter接受一个字符串，并使用给定的定界符将其拆分为多个部分。 MapSplitter通过从字符串创建Map <String，String>进一步走了一步，该字符串的键值对用一个定界符分隔，而对值本身则完全用另一个定界符分隔。让我们看一个例子：

Map<String,String> configParams = Splitter.splitOn("#")
.withKeyValueSeparator("=")
.split("6=June#7=July#8=August");

在上面的示例中，字符串"6=June#7=July#8=August"将被转换为Map，键6,7和8分别映射到June，July和August。 MapSplitter是一个非常简单但功能强大的类。现在我们知道了MapSplitter工作原理，让我们看一下如何使用它来帮助我们为map-reduce作业设置配置参数

使用MapSplitter进行配置

以前，我们通过在Context对象中为map-reduce作业设置值，来将连接键的索引位置和分隔符设置为对所有文件相同。现在，我们希望能够根据需要在每个输入文件的基础上进行设置。我们仍将根据需要提供默认值。为了完成此更改，我们将创建一个属性文件，该属性文件将文件名作为键，并且该值将是格式设置为MapSplitter使用的MapSplitter 。我们的属性文件如下所示：

oneToManyEmployer2.txt=keyIndex=1&separator=|
oneToManyVehicles2.txt=keyIndex=1&separator=#

在这里，我们指示文件oneToManyEmployer2.txt在索引位置1处具有我们的连接键，而分隔符为“ |” 竖线字符和oneToManyVehicles2.txt文件在索引位置1处具有连接键，并使用“，”逗号作为分隔符。我们将对驱动程序类进行一些更改。首先，我们将加载属性文件（假设我们已将文件放置在相对于调用hadoop的目录中）。

InputStream inputStream = new FileInputStream(new File("./jobs/join-config.properties"));
Properties properties = new Properties();
properties.load(inputStream);

首先，我们定义一个常规的Splitter对象，该对象将在斜杠“ /”上拆分文件名。接下来，当我们遍历文件名时，通过对从Splitter.split方法调用返回的Iterable对象调用Iterables.getLast来获得文件的基本名称。然后，我们尝试在Properties.getProperty方法中为每个文件检索配置的属性字符串。请注意，如果找不到文件的属性，我们还将传递defaultMapConfig变量，该变量提供默认值。我们还添加了一些其他配置键和值。将值连接在一起时使用的定界符以及文件的连接顺序，该顺序由文件在提供给程序的参数中的位置确定。然后，我们仅使用文件名作为键将格式化后的字符串放入Context对象。

String defaultMapConfig = "keyIndex=0&separator=,";
Splitter splitter = Splitter.on('/');
for (int i = 0; i < args.length - 1; i++) {
String fileName = Iterables.getLast(splitter.split(args[i]));
String mapConfig = properties.getProperty(fileName, defaultMapConfig);
builder.append(mapConfig).append("&joinDelimiter=,&joinOrder=").append(i + 1);
config.set(fileName, builder.toString());
builder.setLength(0);
filePaths.append(args[i]).append(",");
}

使用配置值

要使用我们的配置值，我们首先必须检索存储为包含我们的配置参数的字符串的HashMap

private Splitter.MapSplitter mapSplitter = Splitter.on("&").withKeyValueSeparator("=");
.......
private Map<String,String> getConfigurationMap(Context context){
FileSplit fileSplit = (FileSplit)context.getInputSplit();
String configString = context.getConfiguration().get(fileSplit.getPath().getName());
return mapSplitter.split(configString);
}

在这里，我们使用MapSplitter实例变量，并通过使用此Mapper使用的文件名检索存储在Context的格式化字符串来创建HashMap 。现在，我们可以简单地从映射中拉出所需的配置参数，如setup方法中所示：

protected void setup(Context context) throws IOException, InterruptedException {
Map<String,String> configMap = getConfigurationMap(context);
keyIndex = Integer.parseInt(configMap.get("keyIndex"));
String separator = configMap.get("separator");
splitter = Splitter.on(separator).trimResults();
String joinDelimiter = configMap.get("joinDelimiter");
joiner = Joiner.on(joinDelimiter);
joinOrder = Integer.parseInt(configMap.get("joinOrder"));
}

map方法中的代码与我们先前的文章中的代码相同。现在我们每个文件都具有完全可配置的设置，而且我们不限于将join键放在一个位置，也不必每个文件使用相同的定界符。当然，这只是一个示例，但是此处概述的方法可用于配置许多其他设置，并且只需要Context对象中的一个键即可。

结果

最初，我们的数据如下所示：

oneToManyEmployer2.txt：

Creative Wealth|cdd8dde3-0349-4f0d-b97a-7ae84b687f9c
Susie's Casuals|81a43486-07e1-4b92-b92b-03d0caa87b5f
Super Saver Foods|aef52cf1-f565-4124-bf18-47acdac47a0e
.....

oneToManyVehicles2.txt：

2003 Holden Cruze#cdd8dde3-0349-4f0d-b97a-7ae84b687f9c
2012 Volkswagen T5#81a43486-07e1-4b92-b92b-03d0caa87b5f
2009 Renault Trafic#aef52cf1-f565-4124-bf18-47acdac47a0e
.....

singlePersonRecords.txt：

cdd8dde3-0349-4f0d-b97a-7ae84b687f9c,Esther,Garner,4071 Haven Lane,Okemos,MI
81a43486-07e1-4b92-b92b-03d0caa87b5f,Timothy,Duncan,753 Stadium Drive,Taunton,MA
aef52cf1-f565-4124-bf18-47acdac47a0e,Brett,Ramsey,4985 Shinn Street,New York,NY
......

运行我们的map-reduce作业后，结果看起来就像我们想要的一样：

08db7c55-22ae-4199-8826-c67a5689f838,John,Gregory,258 Khale Street,Florence,SC,2010 Nissan Titan,Ellman's Catalog Showrooms
0c521380-f868-438c-9916-4ab4ea76d316,Robert,Eversole,518 Stratford Court,Fayetteville,NC,2002 Toyota Highlander,Specialty Restaurant Group
1303e8a6-0085-45b1-8ea5-26c809635da1,Joe,Nagy,3438 Woodstock Drive,El Monte,CA,2011 Hyundai ix35,Eagle Food Centers
15360125-38d6-4f1e-a584-6ab9d1985ab8,Sherri,Hanks,4082 Old House Drive,Alexandria,OH,2003 Toyota Solara,Odyssey Records & Tapes
......

资源资源

Jimmy Lin和Chris Dyer 使用MapReduce进行的数据密集型处理
Hadoop： Tom White 的权威指南
来自博客的源代码和测试
编程蜂巢爱德华卡普里奥罗，院长Wampler和Jason拉瑟格伦
通过Alan Gates 编程Pig
Hadoop API
MRUnit用于单元测试Apache Hadoop映射减少工作

参考： 《随机编码》博客上的JCG合作伙伴 Bill Bejeck提供的使用Guava MapSplitters配置Hadoop 。

翻译自: https://www.javacodegeeks.com/2013/09/configuring-hadoop-with-guava-mapsplitters.html

guava读取配置文件

最后

以上就是时尚啤酒最近收集整理的关于guava读取配置文件_使用Guava MapSplitters配置Hadoop的全部内容，更多相关guava读取配置文件_使用Guava内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：java
浏览次数：333 次浏览
发布日期：2023-11-26 14:55:05

guava读取配置文件_使用Guava MapSplitters配置Hadoop

MapSplitter

使用MapSplitter进行配置

使用配置值

结果

oneToManyEmployer2.txt：

oneToManyVehicles2.txt：

singlePersonRecords.txt：

资源资源

最后

评论列表共有 0 条评论

发表评论取消回复

guava读取配置文件_使用Guava MapSplitters配置Hadoop

MapSplitter

使用MapSplitter进行配置

使用配置值

结果

oneToManyEmployer2.txt：

oneToManyVehicles2.txt：

singlePersonRecords.txt：

资源资源

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复