Hadoop基本练习
完成了 Post not found: hadoop环境搭建 hadoop环境搭建 和 Post not found: hadoop编译安装 hadoop编译安装 两篇文章,环境也搭建完成了,接下来就是进行实际的操作了。首先就是从hellowrold开始。
1.新建文件夹
1 | ## 以下命令可以使用hadoop fs代替 |
1.hadoop 自带示例wordcount 详细运行步骤
2.Hadoop之——HDFS操作实例
3.HDFS常用的文件操作命令 这里写的很详细,挺好的
4.hadoop 创建用户及hdfs权限,hdfs操作等常用shell命令
5.Hadoop:hadoop fs、hadoop dfs与hdfs dfs命令的区别
2.新建测试文件
1 | echo "hello world">file1.txt |
3.上传文件
1 | hadoop fs -put file*.txt hdfsinput |
4.编译生成wordcount程序
(1) 新建WordCount.java文件
我在源码中,网络中找了好久都没有找到:hadoop-examples-1.2.1.jar或者是hadoop-mapreduce-examples.jar之类的测试用例。只能自己写代码了,我在网上找了相关的代码(参考文章3)
1 | import java.io.IOException; |
(2) 编译
进入到WordCount所在目录,执行
1 | javac -classpath $HADOOP_HOME/share/hadoop/common/hadoop-common-3.2.1.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.2.1.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar WordCount.java |
(3) 打包
将class文件打包成wc.jar包
1 | jar cf wc.jar WordCount*.class |
1.Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍
2.MapReduce Tutorial
3.Mac在hadoop3.1.1上运行WordCount例子
4.如何用命令 编译hadoop的java文件
5.第一个MapReduce程序——WordCount (上面的文章都不行,这篇文章是可以成功编译WordCount.java为class的)
5.运行wordcount程序
上面打包成功了wc.jar程序,然后执行,其中/hdfsinput中存放了要处理的文件,/output存放处理后的结果。
1 | hadoop jar wc.jar WordCount /hdfsinput /output |
6.查看结果
我运行这个程序,虽然最后还是有了结果,但其实有点慢的,不知道什么原因,感觉等了两分钟,但是文件明明很少啊,我还以为是卡住了。
1 | hadoop fs -cat /output/part-r-00000 |
问题
1.INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
运行put命令时,出现了:
当我运行:java –version时,出现了java版本是1.5了。
我查看了/etc/profile里面的环境变量,确实设置了是java1.8版本的啊,怎么会出现这个场景呢,刚开始的时候也是安装了1.8得,我猜想,是因为我在编译安装hadoop3.2.1的时候,它自己安装了1.5的。先不管了。
1 | ## 查看yum安装的java包 |
当然也还是没有解决问题,编译命令不是这么写的:
1 | hadoop com.sun.tools.javac.Main WordCount.java |
1.javac 找不到或无法加载主类 com.sun.tools.javac.main的解决方案
2.【问题解决】找不到或无法加载主类 com.sun.tools.javac.Main
3.如何查找YUM 安装的 JAVA_HOME
7.用户权限
hdfs本身是没有用户权限认证的,它的权限认证是依赖于系统提供的,系统创建了什么用户名密码,那么在进行文件读取和写入的时候,hdfs就会去认证这个用户名密码,所以创建和删除用户主要使用的是 linux 的useradd 和 userdel 命令,
1 | ## 创建用户组 groupadd 选项 用户组 |
1.在hdfs中创建文件夹,出现权限问题
2.hdfs中文件及文件夹权限
3.hdfs写入无权限解决方法 hdfs-site.xml中的配置 dfs.permissions.enabled = false,这个应该是直接关闭了权限认证
4.Hadoop程序运行中 “没有权限读写文件” 1.hdfs中的文件权限不够;2.本地(Linux)文件权限不够;
5.HDFS远程连接 客户端权限错误
6.HDFS权限管理 用户身份认证并不属于HDFS的范畴,也就是说HDFS并不负责用户身份的合法性检查,它只是会依赖相关系统来获取用户身份,从而用于后续的鉴权。而对于身份认证,完全取决于其采用的认证系统。目前HDFS有支持两种用户身份认证:简单认证和kerberos认证。HDFS没有setuid和setgid实现。 这篇文章我觉得可以好好的看一看,对于权限这一块讲的还是挺明白的。
7.Hadoop Shell命令 常用的 hadoop shell 命令