DataQuaner

我的梦想
不是每个人都应该像我这样去建造一座水晶大教堂，但是每个人都应该拥有自己的梦想，设计自己的梦想，追求自己的梦想，实现自己的梦想。梦想是生命的灵魂，是心灵的灯塔，是引导人走向成功的信仰。有了崇高的梦想，只要矢志不渝地追求，梦想就会成为现实，奋斗就会变成壮举，生命就会创造奇迹。——罗伯·舒乐
                            
                            Flink三天光速入门
                        
                                1. 初识 Flink在当前数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark，基本上已经取代了 MapR
                            
                                2020-11-11
                            
                                    Flink
                                
                            Flink
                        
                            【hive日常使用问题记录】Hive建表导致的ORC序列化错误
                        
                                问题描述：hive表在创建时候指定存储格式
STORED AS ORC 
tblproperties ('orc.compress'='SNAPPY');
 当insert数据到表时抛出异常
Caused by: java.lang.Cla
                            
                                2020-09-13
                            
                                    -- Hive
                                
                            -- Hive
                        
                            大数据开发工程师面试资料汇总
                        
                                面试
                            
                                2020-07-06
                            
                                    Job
                                
                            Job
                        
                            Spark面试问题梳理：选择题
                        
                                1. Spark 的四大组件下面哪个不是 (D )A.Spark Streaming    B. Mlib 
C Graphx    D.Spark R
2. 下面哪个端口不是 spark 自带服务的端口 (C )A.8080 B.4040
                            
                                2020-06-21
                            
                                    Spark
                                
                            Spark
                        
                            Spark面试问题梳理
                        
                                问题一：Spark中的RDD是什么，有哪些特性？1.RDD是什么？
RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合
                            
                                2020-06-21
                            
                                    Spark
                                
                            Spark
                        
                            HiveSQL优化 hive参数版总结
                        
Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能，而且，面试一定会问。那么，我希望面试者能答出其中的80%优化点，在这个问题上才算过关。

1. Hive优化目标
在有限的资源下，
                            
                                2020-06-11
                            
                                    Hive
                                
                            Hive
                        
                            6.Hadoop面试系列之UDF
                        
                                1. 开发步骤​       UDF简称自定义函数，它是Hive函数库的扩展，自定义函数UDF在MapReduce执行阶段发挥作用。开发步骤如下：

1）  给hive.ql.exec.UDF包开发一个自定义函数类，从UDF继承。自定义函数
                            
                                2020-06-10
                            
                                Leon
                                
                            Hive开窗函数梳理
                        
                                本文通过几个实际的查询例子，为大家介绍Hive SQL面试中最常问到的窗口函数。
假设有如下表格（loan）。表中包含贷款人的唯一标识，贷款日期，以及贷款金额。

1.SUM(), MIN(),MAX(),AVG()等聚合函数，可以直接使用
                            
                                2020-06-10
                            
                                    Hive
                                
                            Hive
                        
                            开窗函数
                        
                            Hadoop核心知识之MapReduce原理
                        
                                Hadoop面试必备
                            
                                2020-06-08
                            
                                    Hadoop
                                
                            MapReduce
                        
                            Hadoop
                        
                            hadoop shell命令
                        
                                0.前言FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 
所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。
对HDFS文件系统，
                            
                                2020-06-08
                            
                                    Hadoop
                                
                            Hadoop
                        
                            Shell
数据可视化分析平台开源方案集锦

零基础自学人工智能路径规划，附资源，亲身经验

大数据开发工程师面试资料汇总