DataQuaner
12
27
如何构建用户标签体系(转载) 如何构建用户标签体系(转载)
亚马逊的CEO Jeff Bezos曾说过他的梦想,「如果我有一百万的用户,我就会做一百万个不同的网站!」,做这个基础是先对用户打标签。 而目前基于标签的智能推荐系统,已经有了成熟商业应用,比如:淘宝的千人千面,美团外卖的智能推荐,腾讯的
2020-12-27
11
Flink三天光速入门 Flink三天光速入门
1. 初识 Flink在当前数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产的数据应该如何进行有效的处理,成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark,基本上已经取代了 MapR
2020-11-11
09
13
06
21
21
Spark面试问题梳理 Spark面试问题梳理
问题一:Spark中的RDD是什么,有哪些特性?1.RDD是什么? RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合
2020-06-21
11
HiveSQL优化 hive参数版总结 HiveSQL优化 hive参数版总结
Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能,而且,面试一定会问。那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关。 1. Hive优化目标 在有限的资源下,
2020-06-11
10
6.Hadoop面试系列之UDF 6.Hadoop面试系列之UDF
1. 开发步骤​ UDF简称自定义函数,它是Hive函数库的扩展,自定义函数UDF在MapReduce执行阶段发挥作用。开发步骤如下: 1) 给hive.ql.exec.UDF包开发一个自定义函数类,从UDF继承。自定义函数
2020-06-10 Leon
10
Hive开窗函数梳理 Hive开窗函数梳理
本文通过几个实际的查询例子,为大家介绍Hive SQL面试中最常问到的窗口函数。 假设有如下表格(loan)。表中包含贷款人的唯一标识,贷款日期,以及贷款金额。 1.SUM(), MIN(),MAX(),AVG()等聚合函数,可以直接使用
2020-06-10
1 / 3