Mapreduce

Mapreduce

MapReduce是Google提出的一个软件架构,用于大规模数据集的并行运算。

ERROR security.UserGroupInformation: PriviledgedActionException as:root cause:org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://bfdbjc1:12000/user/jie.li...

2014-03-24 •

3个节点,通过job.setNumReducerTasks(5),运行后reducer个数仍然为1,但通过命令行方式运行有效。不知如何解决?
看到一个解决方案:已经解决,eclipse默认是localJobRunner启动,只有一个reducer,可以通过将配置目录加入classpath,和增加打包的函数实现到分布式上运行,就能启动多个reducer了。
没...

2014-03-13 •

本人欲实现一个全局排序的MR程序。
问题背景:
原始数据格式为<(Text)name, (IntWritable)score>,现需要按score进行全局排序。
目前实现过程为:分为两个job,设置第一个job转化该原始数据文件为SequenceFile,该SequenceFile的数据格式为<(intWritable)score,(Tex...

2013-09-24 •

如题,文档向量已经生成,因为hdfs容量不太够,所以计算起来有些难度

之前用余弦定理,在计算分子时需要两两相乘,数量级在800W * 800W之内,把hdfs都写满了还是不够,求有效算法

没有人吗?自己顶上去

2012-12-20 •

我用mapreduce往hbase数据表中插入数据,大约2KW条数据,每次插入到500W左右的时候就发生Unable to find region错误。例如我是往data2里插入数据。
抛出的异常为:
org.apache.hadoop.hbase.client.NoServerForRegionException: Unable to find regio...

2012-11-16 •

hadoop中的mapreduce有啥比较好 的应用场景需要对其性能方面进行预测、分析以及优化?详细描述下应用场景或者您需要用mapreduce解决的事情。

2012-10-31 •

已经在集群机器的mapred-site.xml中设置了mapred.tasktracker.reduce.tasks.maximum为10,同时在代码中也设置了jobConf.setNumReduceTasks(5)。
命令行打包并执行job时是正常的,但是如果用eclipse运行任务,只启动了一个reduce。
也尝试着在eclipse的 Map/Redu...

2012-10-17 •

用mapreduce做一个类似于join的操作,即数据集B与数据集A中的每个记录进行比较。想法是先将数据集A分发到各个map上去,然后map读数据集B,与A中每个数据比较。在分发数据集A(/pskylinedingfilterout/part-r-00001)的时候出现问题,现在IOUtils的目的流暂时为system.out。目的流应该写成什么才能分发到m...

2012-10-13 •

热点用户排行

话题状态

最近活动:很久很久以前
该话题下的问题共被浏览 23364 次