Hadoop基本练习

标签: 大数据 分类: 大数据 创建时间:2020-01-04 10:05:38 更新时间:2023-10-20 11:23:27

完成了 Post not found: hadoop环境搭建 hadoop环境搭建Post not found: hadoop编译安装 hadoop编译安装 两篇文章,环境也搭建完成了,接下来就是进行实际的操作了。首先就是从hellowrold开始。

1.新建文件夹

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
## 以下命令可以使用hadoop fs代替
# 查看hdfs根目录
hdfs dfs -ls /

# 查看hdfs其它目录(/user/zhang)
hdfs dfs -ls /user/zhang

# 创建文件夹文件夹hdfsinput前一定要加斜杠
hdfs dfs -mkdir /hdfsinput

# 删除/user/zhang/abc目录
hdfs dfs -rm -r /user/zhang/abc

## 对某一个文件夹设置读写权限
hadoop fs -chmod -R 777 /starrocks

2.新建测试文件

1
2
echo "hello world">file1.txt
echo echo "hello hadoop">file2.txt

3.上传文件

1
hadoop fs -put file*.txt hdfsinput

4.编译生成wordcount程序

(1) 新建WordCount.java文件
我在源码中,网络中找了好久都没有找到:hadoop-examples-1.2.1.jar或者是hadoop-mapreduce-examples.jar之类的测试用例。只能自己写代码了,我在网上找了相关的代码(参考文章3)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(Object key, Text value, Context context
) throws IOException, InterruptedException {
StringTokenizer itr = new StringTokenizer(value.toString());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
}

public static class IntSumReducer
extends Reducer<Text,IntWritable,Text,IntWritable> {
private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values,
Context context
) throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values) {
sum += val.get();
}
result.set(sum);
context.write(key, result);
}
}

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf, "word count");
job.setJarByClass(WordCount.class);
job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

(2) 编译
进入到WordCount所在目录,执行

1
javac -classpath $HADOOP_HOME/share/hadoop/common/hadoop-common-3.2.1.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.2.1.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar  WordCount.java

(3) 打包
将class文件打包成wc.jar包

1
jar cf wc.jar WordCount*.class

5.运行wordcount程序

上面打包成功了wc.jar程序,然后执行,其中/hdfsinput中存放了要处理的文件,/output存放处理后的结果。

1
hadoop jar wc.jar WordCount /hdfsinput /output

6.查看结果

我运行这个程序,虽然最后还是有了结果,但其实有点慢的,不知道什么原因,感觉等了两分钟,但是文件明明很少啊,我还以为是卡住了。

1
hadoop fs -cat /output/part-r-00000

问题

1.INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
运行put命令时,出现了:

当我运行:java –version时,出现了java版本是1.5了。

我查看了/etc/profile里面的环境变量,确实设置了是java1.8版本的啊,怎么会出现这个场景呢,刚开始的时候也是安装了1.8得,我猜想,是因为我在编译安装hadoop3.2.1的时候,它自己安装了1.5的。先不管了。

1
2
3
4
5
6
## 查看yum安装的java包
yum list java*
## 然后卸载
yum remove java
## 然后就是
source /etc/profile

当然也还是没有解决问题,编译命令不是这么写的:

1
hadoop com.sun.tools.javac.Main WordCount.java

7.用户权限

hdfs本身是没有用户权限认证的,它的权限认证是依赖于系统提供的,系统创建了什么用户名密码,那么在进行文件读取和写入的时候,hdfs就会去认证这个用户名密码,所以创建和删除用户主要使用的是 linux 的useradd 和 userdel 命令,

1
2
3
4
5
6
7
8
9
10
## 创建用户组 groupadd 选项 用户组
groupadd hadoop

## # 创建新用户hadoop,并添加入hadoop用户组
useradd -g hadoop hadoop
## 给hadoop设置密码
passwd hadoop

## 对某一个目录进行权限配置
hadoop fs -chmod 777 XXXX 进行权限的修改
参考文章:
1.在hdfs中创建文件夹,出现权限问题
2.hdfs中文件及文件夹权限
3.hdfs写入无权限解决方法 hdfs-site.xml中的配置 dfs.permissions.enabled = false,这个应该是直接关闭了权限认证
4.Hadoop程序运行中 “没有权限读写文件” 1.hdfs中的文件权限不够;2.本地(Linux)文件权限不够;
5.HDFS远程连接 客户端权限错误
6.HDFS权限管理 用户身份认证并不属于HDFS的范畴,也就是说HDFS并不负责用户身份的合法性检查,它只是会依赖相关系统来获取用户身份,从而用于后续的鉴权。而对于身份认证,完全取决于其采用的认证系统。目前HDFS有支持两种用户身份认证:简单认证和kerberos认证。HDFS没有setuid和setgid实现。 这篇文章我觉得可以好好的看一看,对于权限这一块讲的还是挺明白的。
7.Hadoop Shell命令 常用的 hadoop shell 命令
小额赞助
本人提供免费与付费咨询服务,感谢您的支持!赞助请发邮件通知,方便公布您的善意!
**光 3.01 元
Sun 3.00 元
bibichuan 3.00 元
微信公众号
广告位
诚心邀请广大金主爸爸洽谈合作
每日一省
isNaN 和 Number.isNaN 函数的区别?

1.函数 isNaN 接收参数后,会尝试将这个参数转换为数值,任何不能被转换为数值的的值都会返回 true,因此非数字值传入也会返回 true ,会影响 NaN 的判断。

2.函数 Number.isNaN 会首先判断传入参数是否为数字,如果是数字再继续判断是否为 NaN ,不会进行数据类型的转换,这种方法对于 NaN 的判断更为准确。

每日二省
为什么0.1+0.2 ! == 0.3,如何让其相等?

一个直接的解决方法就是设置一个误差范围,通常称为“机器精度”。对JavaScript来说,这个值通常为2-52,在ES6中,提供了Number.EPSILON属性,而它的值就是2-52,只要判断0.1+0.2-0.3是否小于Number.EPSILON,如果小于,就可以判断为0.1+0.2 ===0.3。

每日三省
== 操作符的强制类型转换规则?

1.首先会判断两者类型是否**相同,**相同的话就比较两者的大小。

2.类型不相同的话,就会进行类型转换。

3.会先判断是否在对比 null 和 undefined,是的话就会返回 true。

4.判断两者类型是否为 string 和 number,是的话就会将字符串转换为 number。

5.判断其中一方是否为 boolean,是的话就会把 boolean 转为 number 再进行判断。

6.判断其中一方是否为 object 且另一方为 string、number 或者 symbol,是的话就会把 object 转为原始类型再进行判断。

每日英语
Happiness is time precipitation, smile is the lonely sad.
幸福是年华的沉淀,微笑是寂寞的悲伤。