DataQuaner
  我的梦想
不是每个人都应该像我这样去建造一座水晶大教堂,但是每个人都应该拥有自己的梦想,设计自己的梦想,追求自己的梦想,实现自己的梦想。梦想是生命的灵魂,是心灵的灯塔,是引导人走向成功的信仰。有了崇高的梦想,只要矢志不渝地追求,梦想就会成为现实,奋斗就会变成壮举,生命就会创造奇迹。——罗伯·舒乐
Flink三天光速入门 Flink三天光速入门
1. 初识 Flink在当前数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark,基本上已经取代了 MapR
2020-11-11
【hive日常使用问题记录】Hive建表导致的ORC序列化错误 【hive日常使用问题记录】Hive建表导致的ORC序列化错误
问题描述:hive表在创建时候指定存储格式 STORED AS ORC tblproperties ('orc.compress'='SNAPPY'); 当insert数据到表时抛出异常 Caused by: java.lang.Cla
2020-09-13
Spark面试问题梳理:选择题 Spark面试问题梳理:选择题
1. Spark 的四大组件下面哪个不是 (D )A.Spark Streaming B. Mlib C Graphx D.Spark R 2. 下面哪个端口不是 spark 自带服务的端口 (C )A.8080 B.4040
2020-06-21
Spark面试问题梳理 Spark面试问题梳理
问题一:Spark中的RDD是什么,有哪些特性?1.RDD是什么? RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合
2020-06-21
HiveSQL优化 hive参数版总结 HiveSQL优化 hive参数版总结
Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。 1. Hive优化目标 在有限的资源下,
2020-06-11
6.Hadoop面试系列之UDF 6.Hadoop面试系列之UDF
1. 开发步骤​ UDF简称自定义函数,它是Hive函数库的扩展,自定义函数UDF在MapReduce执行阶段发挥作用。开发步骤如下: 1) 给hive.ql.exec.UDF包开发一个自定义函数类,从UDF继承。自定义函数
2020-06-10 Leon
Hive开窗函数梳理 Hive开窗函数梳理
本文通过几个实际的查询例子,为大家介绍Hive SQL面试中最常问到的窗口函数。 假设有如下表格(loan)。表中包含贷款人的唯一标识,贷款日期,以及贷款金额。 1.SUM(), MIN(),MAX(),AVG()等聚合函数,可以直接使用
2020-06-10
hadoop shell命令 hadoop shell命令
0.前言FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。 对HDFS文件系统,
2020-06-08
2 / 5