四川省的住房和城乡建设厅网站,国外在线设计平台,用asp.net做网站的书,杭州如何做百度的网站作者简介
蓝桥签约作者、大数据Python领域优质创作者。维护多个大数据技术群#xff0c;帮助大学生就业和初级程序员解决工作难题。
我的使命与愿景#xff1a;持续稳定输出#xff0c;赋能中国技术社区蓬勃发展#xff01;
粉丝福利#xff1a;免费下载海量【PPT…作者简介
蓝桥签约作者、大数据Python领域优质创作者。维护多个大数据技术群帮助大学生就业和初级程序员解决工作难题。
我的使命与愿景持续稳定输出赋能中国技术社区蓬勃发展
粉丝福利免费下载海量【PPT模板、简历模板、学习资料】 目录
1、沟通技巧
1引导式聊天
2自信的表达
3不要暴露缺点
2、充足且针对性的知识储备
1技术框架部分
2项目部分
3算法部分
4HR部分
3、真实面试案例
真实面试案例一
真实面试案例二
真实面试案例三 很多小伙伴问我说你拿了那么多大厂的offer有什么面试套路吗
我想说的是面试无非就两点沟通技巧 充足且针对性的知识储备。 1、沟通技巧
1引导式聊天 简单来说就是从自我介绍开始就蹦出一些技术名词引导面试官对这些技术知识点进行提问然后提前准备好答案回答完上一个问题的时候扯一嘴其他的技术知识点很多面试官喜欢打破砂锅问到底但往往中了你的圈套。 在面试过程中有很多引导的机会慢慢体会吧 2自信的表达 一个自信的表达能让整体面试气氛轻松活跃给面试官好的印象分面试就像谈恋爱看感觉的。
3不要暴露缺点 很多小伙伴包括当年的我在面对不会的提问时不断的去解释反而会暴露更多问题。这个时候你完全可以说这个不太了解然后继续后面的回答。相信我放过几个不会的不会影响面试结果因为没有人什么都懂 你要做的就是尽可能多的呈现你会的快速跳过不会的 2、充足且针对性的知识储备 关于知识储备我在技术群里咨询了一些大厂的小伙伴的面试经历分享给大家。 针对这些问题的回答话术小编会在近期啃下来作为粉丝福利发布。
1技术框架部分 1会根据面试者简历上的技能点进行考察。注意技能点描述用词不要随便用熟悉觉得特别熟的可以说熟练使用 2常用的大数据框架是肯定会问的比如Hive、Spark、Kafka等。常见的如Kafka精准消费问题的多种解决办法对比Spark的Task调度规则 3有些面试官会直接让讲了解的框架最底层实现 4JavaMySQLRedis必问JVMHashmapJUC相关MySQL的索引及优化Redis数据结构、集群、缓存淘汰 5常见的协议会考租约协议quarum原理Zookeeper选举acidacpbase等
2项目部分 1一般会让你挑你最熟的一个项目讲。考察从项目背景到实现的把控 2重点是参与的部分遇到的难点 3常见业务难题的解决和优化层层递进头条追求做到极致 4没有做过的项目、模块不要乱讲容易被问懵逼或者被太简单被鄙视
3算法部分 1数据结构必考手写代码每一面都会考。常见数组、链表、二叉树、跳表的题。有些部门会先笔试电脑实际编码运行再面试 2算法部分常见动态规划、概率题、二进制一类 3SQL题目行列转换。分区函数统计连续登陆天数这一类问题 4多刷Leetcode题都是有套路的
4HR部分 1想好跳槽理由一般注重抗压能力和稳定性 2大厂会有明确的稳定性的要求如无连续2段不超过1年的工作经历当然一般安排面试的话就说明稳定性和学历初筛通过了。 3、真实面试案例
真实面试案例一 1技术部分
1WordCount的实现过程
2MR与Spark的区别
3Spark在Client与在集群运行的区别
3相同的SQL在HiveSql与SparkSQL的实现中为什么Spark比Hadoop快
4自定义UDF
5设计HBase表需要注意的点
6HBase的hlog
7数据同样存在HDFS为什么HBase支持在线查询
8数据从Hive中用SparkSql进行操作有遇到什么问题类似兼容性的问题。
9SparkStream与StromFlink与什么区别
10有三个map一个reduce来做top10哪种方法最优。数据量特别大。 2项目的架构
1数据仓库的模型设计
2数据仓库的数据清洗
3业务建模、数据分析方法。
4数据仓库是怎么设计的
5数仓规范设计哪些方面(字段、维度存储压缩、数据保留机制)
6数仓质量怎么监控(数据质量管理系统主键唯一、非空、数据波动)
7数仓主题分哪些(按照公司业务归类
8数仓拉链表的原理
9有没有遇到数据倾斜的问题场景、解决方式
10数仓重点调度任务的保障方式调度系统优先级
11数仓任务报错和监控调度系统捕捉错误电话短信告之值班人员 真实面试案例二
1笔试部分
1有一表名t_sh_mtt_netdisk_log从表名可以看出该表是什么业务的是什么周期粒度的表。
2怎么查看表结构表创建语句怎么查看表有哪些分区怎么查看分区对应hdfs路径怎么计算某个分区的数据量大小怎么计算某个分区的文件总数
3有一hive sql怎么计算这个sql会产生多少个map数
4怎么查看hive有什么自带函数怎么查看函数的详细信息
5Hive支持哪些基木数据类型
6请指出下面两个语句读取分区ds数据的不同
Select * from t where ds20150101 and provincegd or provinceex
Select x fromt where ds 20150101 andprovincegd or provinceex
7将字符串keylvaluelkey2value2...keynvaluen进行分割放到一个字段里面可以查出任意一个keyx对应的valuex值。请写出查询语句并计算总共有多少个key值。
8用一个字符串比如alblc来测试某个函数比如split用|分隔符将字符串进行分割的语句
9a表和b表内连接a表为小表只有2000行记录
select a.*from a Join b on a.keyb.key
可以进行怎样的优化
10a表left join b表b表为小衣可以进行怎样优化
scleet a.*from a left join Join b ona.keyb.key
如果a为小表可以怎样优化
11请指出下面sql语句的区别
select a.* from a left Join b on a.key b.key and a.dsxxx and b.dsxxx
sclect a.* from a lef Join b on a.key b.key and b.dsxxx
select a.* from a lef Join b on a.key b.key and b.dsxxx where a.dsxxx
Select a.* from a left Join b on a.key b.key where a.dsxxx and b.dsxxx
12多表连按的写法a,.b,c三个表内连接连接字段都是key怎样写连接语句
13两大表连接发生了数据倾斜有几个reduce无法完成怎么查找发生数据领斜的原因应该怎样优化
语句select t1.*,nvl(t2.x,1) from t1 left join t2 on t1.guidt2.guid
14两大表连接发生了数据倾斜。有一个reduce无法完成检直发现t1中guid的记录有很多其他guid都不重复这条语句该怎样优化
语句select t1.*,nvl(t2.x,1) from t1 left join t2 on t1.guid t2.guid
15如何用hive q实现sqL中的exist/in 子句
mysql语句如下
SEL ECT a* FROM a where a.key inselect dstinct key from b where key like ‘filter%’
16sort by、distribute by、cluster by 和 order by 区别
注可参考数据工厂的“帮助中心》集群hive》hive使用优化》hive使用注意事项” 真实面试案例三
1技术部分
1我看你上面写了你会Spark那你用Spark写一下刚刚那道题的代码不能用Spark SQL
2我看你上面有写到熟悉Hive原理和优化你说一下怎么优化
3优化有说到语句优化然后又说回到pv和uv那个问题假如说让你优化你怎么优化我代码里面有count(distinct id) uv,
4问了一些Kafka的我只记得一点点问我数据会不会重复消费什么情况下会重复消费
5在Hive执行语句的时候如果很慢什么原因造成
我有提到数据倾斜的问题他又问怎么解决数据倾斜
2项目部分
1让你挑一个比较有亮点的项目详细说
2你负责了什么数仓中统计了哪些指标
3刚刚听你说项目里面有提到分层如果我要你求每天商品的pvuv从ods层到dm层它的具体流向各层都统计了什么后来让写求pvuv的sql语句
3场景部分
1有一个分区表表名T字段qqage按天分区让写出创建表的语句
2刚刚的分区表求20200221这个分区中年龄第N大的qq号列表
4手写部分
1三个字段timestampuser_idproduct_id让求pv最大的商品写了之后又叫用Scala代码写一遍然后又问假如说只让你求pv数大于100的top3呢代码又怎么写 【求评论、求点赞、求收藏】 读到此处的大佬你的面试技巧有哪些呢请在评论区畅所欲言吧