`

(转)如何去掉mapreduce自动添加的分隔符

 
阅读更多

    我们在使用streaming模式的mapreduce开发程序的时候,经常会发现输出结果中被莫名其妙的添加了分割符,比如在一行的中间或者结尾多了 一个Tab符号。尤其是输出只有一个字段的时候,末尾一定会被添加一个Tab符,看着十分恶心,而且有可能影响程序的正确性,所以我们一定要除掉它。

 
    首先来看看他是怎么产生的。因为streaming版本的mapreduce,会将程序的输出按照key/velue的形式组织,而且key/value之间需要有一个分隔符,方便程序区分。这个分割符,默认的就是Tab。我们可以通过-jobconf stream.map.output.field.separator=, 和-jobconf mapred.textoutputformat.separator=,来修改。
 
    前面提到了,如果在mapper阶段或者reduce阶段,只有key输出,没有value时(默认是以tab作为key和value的分割。所以如果输 出的数据中没有tab,就表示只有key,没有value),mapreduce框架会自动给数据加上一个tab,即使我们修改了分割符,那它也会添加修 改后的分割符,依然不能解决这个问题。针对这种情况,hadoop提供了一个参数,增加-jobconf mapred.textoutputformat.ignoreseparator=true 通过这个方法,可以去掉自动补上的tab。
 
    但是有一点需要注意: map阶段和reduce阶段都会出现以上说明的自动补tab的问题,而-jobconf mapred.textoutputformat.ignoreseparator=true参数只能去掉reduce阶段增加的tab,所以如果在 map阶段被自动加上了tab,需要自行手工在reduce程序中删除之。 对于只有map的程序,可以通过增加一轮reduce,然后在reduce中使用参数,去除Tab键。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics