做计量检定的网站,建设项目环境登记表辽宁省网站,中国工程有限公司,WordPress主题不显示评论使用python写MapReduce的“诀窍”是利用Hadoop流的API#xff0c;通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.stdin读取输入数据#xff0c;并把我们的输出传送给sys.stdout。Hadoop流将会帮助我们处理别的…使用python写MapReduce的“诀窍”是利用Hadoop流的API通过STDIN(标准输入)、STDOUT(标准输出)在Map函数和Reduce函数之间传递数据。我们唯一需要做的是利用Python的sys.stdin读取输入数据并把我们的输出传送给sys.stdout。Hadoop流将会帮助我们处理别的任何事情。1.1 Map阶段mapper.py在这里我们假设把文件保存到hadoop-0.20.2/test/code/mapper.py#!/usr/bin/env pythonimport sysfor line in sys.stdin:line line.strip()words line.split()for word in words:print %s\t%s % (word, 1)文件从STDIN读取文件。把单词切开并把单词和词频输出STDOUT。Map脚本不会计算单词的总数而是输出 1。在我们的例子中我们让随后的Reduce阶段做统计工作。为了是脚本可执行增加mapper.py的可执行权限chmod x hadoop-0.20.2/test/code/mapper.py1.2 Reduce阶段reducer.py在这里我们假设把文件保存到hadoop-0.20.2/test/code/reducer.py#!/usr/bin/env python