DataQuaner
06
21
21
Spark面试问题梳理 Spark面试问题梳理
问题一:Spark中的RDD是什么,有哪些特性?1.RDD是什么? RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合
2020-06-21
11
HiveSQL优化 hive参数版总结 HiveSQL优化 hive参数版总结
Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。 1. Hive优化目标 在有限的资源下,
2020-06-11
10
6.Hadoop面试系列之UDF 6.Hadoop面试系列之UDF
1. 开发步骤​ UDF简称自定义函数,它是Hive函数库的扩展,自定义函数UDF在MapReduce执行阶段发挥作用。开发步骤如下: 1) 给hive.ql.exec.UDF包开发一个自定义函数类,从UDF继承。自定义函数
2020-06-10 Leon
10
Hive开窗函数梳理 Hive开窗函数梳理
本文通过几个实际的查询例子,为大家介绍Hive SQL面试中最常问到的窗口函数。 假设有如下表格(loan)。表中包含贷款人的唯一标识,贷款日期,以及贷款金额。 1.SUM(), MIN(),MAX(),AVG()等聚合函数,可以直接使用
2020-06-10
08
hadoop shell命令 hadoop shell命令
0.前言FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。 对HDFS文件系统,
2020-06-08