归档: 2020 | DataQuaner

2020

12

27

如何构建用户标签体系（转载）

亚马逊的CEO Jeff Bezos曾说过他的梦想，「如果我有一百万的用户，我就会做一百万个不同的网站！」，做这个基础是先对用户打标签。而目前基于标签的智能推荐系统，已经有了成熟商业应用，比如：淘宝的千人千面，美团外卖的智能推荐，腾讯的

2020-12-27 用户标签

用户标签

11

12

Java程序的层级结构（Controller、Service、Dao、Entity层）

Java基础

2020-11-12 Java

Java

11

Flink三天光速入门

1. 初识 Flink在当前数据量激增的时代，各种业务场景都有大量的业务数据产生，对于这些不断产的数据应该如何进行有效的处理，成为当下大多数公司所面临的问题。目前比较流行的大数据处理引擎 Apache Spark，基本上已经取代了 MapR

2020-11-11 Flink

Flink

09

13

【hive日常使用问题记录】Hive建表导致的ORC序列化错误

问题描述：hive表在创建时候指定存储格式 STORED AS ORC tblproperties ('orc.compress'='SNAPPY'); 当insert数据到表时抛出异常 Caused by: java.lang.Cla

2020-09-13 -- Hive

-- Hive

07

06

大数据开发工程师面试资料汇总

面试

2020-07-06 Job

Job

06

21

Spark面试问题梳理：选择题

1. Spark 的四大组件下面哪个不是 (D )A.Spark Streaming B. Mlib C Graphx D.Spark R 2. 下面哪个端口不是 spark 自带服务的端口 (C )A.8080 B.4040

2020-06-21 Spark

Spark

21

Spark面试问题梳理

问题一：Spark中的RDD是什么，有哪些特性？1.RDD是什么？ RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合

2020-06-21 Spark

Spark

11

HiveSQL优化 hive参数版总结

Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能，而且，面试一定会问。那么，我希望面试者能答出其中的80%优化点，在这个问题上才算过关。 1. Hive优化目标在有限的资源下，

2020-06-11 Hive

Hive

10

6.Hadoop面试系列之UDF

1. 开发步骤 UDF简称自定义函数，它是Hive函数库的扩展，自定义函数UDF在MapReduce执行阶段发挥作用。开发步骤如下： 1）给hive.ql.exec.UDF包开发一个自定义函数类，从UDF继承。自定义函数

2020-06-10 Leon

10

Hive开窗函数梳理

本文通过几个实际的查询例子，为大家介绍Hive SQL面试中最常问到的窗口函数。假设有如下表格（loan）。表中包含贷款人的唯一标识，贷款日期，以及贷款金额。 1.SUM(), MIN(),MAX(),AVG()等聚合函数，可以直接使用

2020-06-10 Hive

Hive 开窗函数