is there any seqFileDir option for “clusterdump” in the latest “apache mahout” library?
我正在尝试在输出上执行”clusterdump”
mahout kmeans 聚类示例(synthetic_control 示例)。但我遇到以下错误:
1
2 3 4 5 6 7 8 9 10 11 |
> ~/MAHOUT/trunk/bin/mahout clusterdump –seqFileDir clusters-10-final –pointsDir clusteredPoints –output a1.txt
MAHOUT_LOCAL is not set; adding HADOOP_CONF_DIR to classpath. 12/06/21 22:43:18 WARN conf.Configuration: DEPRECATED: hadoop-site.xml found in the classpath. Usage of hadoop-site.xml is deprecated. Instead use core-site.xml, mapred-site.xml and hdfs-site.xml to override properties of core-default.xml, mapred-default.xml and hdfs-default.xml respectively 12/06/21 22:43:25 ERROR common.AbstractJob: Unexpected –seqFileDir while processing Job-Specific Options: |
所以我猜 clusterdump 没有”seqFileDir”选项,但所有在线教程(例如 https://cwiki.apache.org/MAHOUT/cluster-dumper.html)都引用了这个选项。
你能建议我补救措施或我缺少什么吗?
您是否尝试将其指定为 –input 选项?
- 是的,我做到了。当我用–input替换–seqFileDir时,生成了一个输出文件,但那是EMPTY!你知道为什么教程谈论 –seqFileDir 选项吗?
- 我正在解决这个问题。神奇地我找到了解决方案!感谢您的建议 –input 代替 –seqFileDir 选项。我做错的是,我没有意识到 clusterdump(设置了 HADOOP_HOME)从 HDFS 读取并将输出写入本地文件系统。无论如何,现在一切正常!
来源:https://www.codenong.com/11148175/