Hadoop基本练习

标签：大数据分类：大数据创建时间：2020-01-04 10:05:38 更新时间：2025-04-28 14:37:41

完成了 Post not found: hadoop环境搭建 hadoop环境搭建和 Post not found: hadoop编译安装 hadoop编译安装两篇文章，环境也搭建完成了，接下来就是进行实际的操作了。首先就是从hellowrold开始。

1.新建文件夹

## 以下命令可以使用hadoop fs代替
# 查看hdfs根目录
hdfs dfs -ls /

# 查看hdfs其它目录(/user/zhang)
hdfs dfs -ls /user/zhang

# 创建文件夹文件夹hdfsinput前一定要加斜杠
hdfs dfs -mkdir /hdfsinput

# 删除/user/zhang/abc目录
hdfs dfs -rm -r /user/zhang/abc

## 对某一个文件夹设置读写权限
hadoop fs -chmod -R 777 /starrocks

参考文章：
1.hadoop 自带示例wordcount 详细运行步骤
2.Hadoop之——HDFS操作实例
3.HDFS常用的文件操作命令这里写的很详细，挺好的
4.hadoop 创建用户及hdfs权限，hdfs操作等常用shell命令
5.Hadoop：hadoop fs、hadoop dfs与hdfs dfs命令的区别

2.新建测试文件

1 2	echo "hello world">file1.txt echo echo "hello hadoop">file2.txt

3.上传文件

1	hadoop fs -put file*.txt hdfsinput

4.编译生成wordcount程序

(1) 新建WordCount.java文件
我在源码中，网络中找了好久都没有找到：hadoop-examples-1.2.1.jar或者是hadoop-mapreduce-examples.jar之类的测试用例。只能自己写代码了,我在网上找了相关的代码(参考文章3)

import java.io.IOException;
import java.util.StringTokenizer;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 
public class WordCount {
 
  public static class TokenizerMapper
       extends Mapper<Object, Text, Text, IntWritable>{
 
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
 
    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }
 
public static class IntSumReducer
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();
 
    public void reduce(Text key, Iterable<IntWritable> values,
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  }
 
 public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

(2) 编译
进入到WordCount所在目录,执行

javac -classpath $HADOOP_HOME/share/hadoop/common/hadoop-common-3.2.1.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.2.1.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar  WordCount.java

(3) 打包
将class文件打包成wc.jar包

1	jar cf wc.jar WordCount*.class

参考文章：
1.Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍
2.MapReduce Tutorial
3.Mac在hadoop3.1.1上运行WordCount例子
4.如何用命令编译hadoop的java文件
5.第一个MapReduce程序——WordCount (上面的文章都不行，这篇文章是可以成功编译WordCount.java为class的)

5.运行wordcount程序

上面打包成功了wc.jar程序，然后执行,其中/hdfsinput中存放了要处理的文件，/output存放处理后的结果。

1	hadoop jar wc.jar WordCount /hdfsinput /output

6.查看结果

我运行这个程序，虽然最后还是有了结果，但其实有点慢的，不知道什么原因，感觉等了两分钟，但是文件明明很少啊，我还以为是卡住了。

1	hadoop fs -cat /output/part-r-00000

参考文章：
1.wordcount程序卡住了
2.Unable to run mapreduce wordcount

问题

1.INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
运行put命令时，出现了：

当我运行:java –version时，出现了java版本是1.5了。

我查看了/etc/profile里面的环境变量，确实设置了是java1.8版本的啊，怎么会出现这个场景呢，刚开始的时候也是安装了1.8得，我猜想，是因为我在编译安装hadoop3.2.1的时候，它自己安装了1.5的。先不管了。

## 查看yum安装的java包
yum list java*
## 然后卸载
yum remove java
## 然后就是
source /etc/profile

当然也还是没有解决问题，编译命令不是这么写的：

1	hadoop com.sun.tools.javac.Main WordCount.java

参考文章：
1.javac 找不到或无法加载主类 com.sun.tools.javac.main的解决方案
2.【问题解决】找不到或无法加载主类 com.sun.tools.javac.Main
3.如何查找YUM 安装的 JAVA_HOME

7.用户权限

hdfs本身是没有用户权限认证的，它的权限认证是依赖于系统提供的，系统创建了什么用户名密码，那么在进行文件读取和写入的时候，hdfs就会去认证这个用户名密码，所以创建和删除用户主要使用的是 linux 的useradd 和 userdel 命令，

## 创建用户组 groupadd 选项 用户组
groupadd hadoop

## # 创建新用户hadoop，并添加入hadoop用户组
useradd -g hadoop hadoop 
## 给hadoop设置密码
passwd hadoop

## 对某一个目录进行权限配置
hadoop fs -chmod 777 XXXX 进行权限的修改

参考文章:
1.在hdfs中创建文件夹，出现权限问题
2.hdfs中文件及文件夹权限
3.hdfs写入无权限解决方法 hdfs-site.xml中的配置 dfs.permissions.enabled = false，这个应该是直接关闭了权限认证
4.Hadoop程序运行中 “没有权限读写文件” 1.hdfs中的文件权限不够；2.本地（Linux）文件权限不够；
5.HDFS远程连接客户端权限错误
6.HDFS权限管理用户身份认证并不属于HDFS的范畴，也就是说HDFS并不负责用户身份的合法性检查，它只是会依赖相关系统来获取用户身份，从而用于后续的鉴权。而对于身份认证，完全取决于其采用的认证系统。目前HDFS有支持两种用户身份认证：简单认证和kerberos认证。HDFS没有setuid和setgid实现。这篇文章我觉得可以好好的看一看，对于权限这一块讲的还是挺明白的。
7.Hadoop Shell命令常用的 hadoop shell 命令

往期推荐

文章目录

微信公众号

广告位

诚心邀请广大金主爸爸洽谈合作

每日一省

isNaN 和 Number.isNaN 函数的区别？

1.函数 isNaN 接收参数后，会尝试将这个参数转换为数值，任何不能被转换为数值的的值都会返回 true，因此非数字值传入也会返回 true ，会影响 NaN 的判断。

2.函数 Number.isNaN 会首先判断传入参数是否为数字，如果是数字再继续判断是否为 NaN ，不会进行数据类型的转换，这种方法对于 NaN 的判断更为准确。

每日二省

为什么0.1+0.2 ! == 0.3，如何让其相等?

一个直接的解决方法就是设置一个误差范围，通常称为“机器精度”。对JavaScript来说，这个值通常为2-52，在ES6中，提供了Number.EPSILON属性，而它的值就是2-52，只要判断0.1+0.2-0.3是否小于Number.EPSILON，如果小于，就可以判断为0.1+0.2 ===0.3。

每日三省

== 操作符的强制类型转换规则？

1.首先会判断两者类型是否**相同，**相同的话就比较两者的大小。

2.类型不相同的话，就会进行类型转换。

3.会先判断是否在对比 null 和 undefined，是的话就会返回 true。

4.判断两者类型是否为 string 和 number，是的话就会将字符串转换为 number。

5.判断其中一方是否为 boolean，是的话就会把 boolean 转为 number 再进行判断。

6.判断其中一方是否为 object 且另一方为 string、number 或者 symbol，是的话就会把 object 转为原始类型再进行判断。

每日英语

Happiness is time precipitation, smile is the lonely sad.

幸福是年华的沉淀，微笑是寂寞的悲伤。