Flink三天光速入门 1. 初识 Flink在当前数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark,基本上已经取代了 MapR 2020-11-11 Flink Flink 【hive日常使用问题记录】Hive建表导致的ORC序列化错误 问题描述:hive表在创建时候指定存储格式 STORED AS ORC tblproperties ('orc.compress'='SNAPPY'); 当insert数据到表时抛出异常 Caused by: java.lang.Cla 2020-09-13 -- Hive -- Hive 大数据开发工程师面试资料汇总 面试 2020-07-06 Job Job Spark面试问题梳理:选择题 1. Spark 的四大组件下面哪个不是 (D )A.Spark Streaming B. Mlib C Graphx D.Spark R 2. 下面哪个端口不是 spark 自带服务的端口 (C )A.8080 B.4040 2020-06-21 Spark Spark Spark面试问题梳理 问题一:Spark中的RDD是什么,有哪些特性?1.RDD是什么? RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合 2020-06-21 Spark Spark HiveSQL优化 hive参数版总结 Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。 1. Hive优化目标 在有限的资源下, 2020-06-11 Hive Hive 6.Hadoop面试系列之UDF 1. 开发步骤 UDF简称自定义函数,它是Hive函数库的扩展,自定义函数UDF在MapReduce执行阶段发挥作用。开发步骤如下: 1) 给hive.ql.exec.UDF包开发一个自定义函数类,从UDF继承。自定义函数 2020-06-10 Leon Hive开窗函数梳理 本文通过几个实际的查询例子,为大家介绍Hive SQL面试中最常问到的窗口函数。 假设有如下表格(loan)。表中包含贷款人的唯一标识,贷款日期,以及贷款金额。 1.SUM(), MIN(),MAX(),AVG()等聚合函数,可以直接使用 2020-06-10 Hive Hive 开窗函数 Hadoop核心知识之MapReduce原理 Hadoop面试必备 2020-06-08 Hadoop MapReduce Hadoop hadoop shell命令 0.前言FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。 对HDFS文件系统, 2020-06-08 Hadoop Hadoop Shell