当前位置：首页 > 面试问题>数据分析师的面试试题

数据分析师的面试试题

2024-01-21 08:48:03 收藏本文下载本文

“~菲~比寻常”通过精心收集，向本站投稿了7篇数据分析师的面试试题，下面是小编整理后的数据分析师的面试试题，欢迎大家阅读分享借鉴，欢迎大家分享。

数据分析师的面试试题

篇1：数据分析师的面试试题

数据分析师大多是支撑运营和决策的，但是大多都是提供数据，分析的较少。我说的分析是给出意见的分析。近期，我也在招聘数据分析师，遇到一些问题，来面试的朋友，要么就是工具的使用者，业务非常不熟悉。要么是就是链条太短，只是做网站端和销售端，对供应链、客服等非常不熟悉。

这个题目就是开放的问一个销售问题，看分析师如何给出相关的意见或者建议。当然这不是分析范畴，但是我觉得分析师既然是做运营支撑、甚至决策，那么一些基础的销售理念是应该有的。

题目：100斤苹果怎么卖，可以卖的钱又多，卖的又快?

开题：此题目意在说如何从商品的角度去考虑如何销售的问题，传统的销售方式就是经典的4p理论。渠道，商品，价格，促销。而此问题意在从商品，价格，促销的角度去问面试者问题。

题注：

1. 如果回答者答的问题说的过多，比如说渠道如何做，如果做售后，如何二次营销，范围就扩大了。

2. 如果回答者的回答过于泛，或者理论的东西比较多，或者听着非常正确而不给出解决方案，那不适合一线分析师。

上面两项是减分项。

刀刀的解答：

1、渠道是重要

用户考虑暂且放在渠道里，因为用户必须依赖渠道实现链接。但就此问题来说，有点跑题，问的是卖苹果，用户考虑一般先考虑需求和消费场景，所以不分享渠道的做法。

2、商品自己分堆

最简单，一堆贵，一堆便宜。苹果不分拣。卖个差不多再重分，46开分。

解读：利用价格做出价格歧视的感念，同时告诉消费者4的商品比较好卖，这样一个明确的指向。

3、商品拆分

按好坏分堆，好苹果贵30%。其余的分两堆，一般的常规卖，最差的贵50%，并贴上标签如涩苹果之类。

解读：劣质商品只是品质不好，不是不能卖高价，关键是你要告诉别人这是稀缺的。真实说明商品特征，不要做多，好的商品还是要高价的，稀缺商品要更贵。一般的商品就这样买。但是注意结合第四条。

4、时间因素

一般早上要比晚上贵，水果尽量当天卖完，所以在晚上8点后开始半价卖。

解读：快和多都是必须的，水果隔夜很多都会坏。晚上8点是大家出来遛弯的时候，可以做清仓了。不留呆滞库存是关键，高周转是关键。手里最好留的是钞票，而不是货物。

5、地点

这个本来不想说，还是说一下，火车站和汽车站绝对卖不出去，摊位没有。最重要的是你见过这种地方卖水果的销售有好的么?好地方在地铁口，菜市口，学校门口。

解读：人流多并不代表需求好，菜市场门口绝对比火车站好。为什么，火车站贵这是大家都知道的，再者，谁没事到火车站去买水果啊。菜市场还是做长久生意的地方，学校门口，地铁口大家多观察就知道了。

商品这个东西可以玩的很多。留几句话：

不要卖货源不稳定的某类商品。

坚决下架无法销售占位置的商品。

主推非标准品。

流行品一定是打折卖的。

篇2：面试数据分析师的常见问题

面试数据分析师的常见问题，数据分析师指的是不同行业中，专门从事行业数据搜集、整理、分析，并依据数据做出行业研究、评估和预测的专业人员。那么在应聘数据分析师这一职位的求职者会面临哪些面试问题呢？

1、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？

2、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？

3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？

4、什么是：协同过滤、n-grams, map reduce、余弦距离？

5、点击流数据应该是实时处理？为什么？哪部分应该实时处理？

6、如何设计一个解决抄袭的方案？

7、如何检验一个个人支付账户都多个人使用？

8、什么是概率合并(AKA模糊融合)？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？

9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？

10、你最喜欢的编程语言是什么？为什么？

11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？

12、什么是大数据的诅咒？

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS, R, Python, Perl语言的区别是？

15、你喜欢TD数据库的什么特征？

16、你参与过数据库与数据模型的设计吗？

17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？

18、请举例说明mapreduce是如何工作的？在什么应用场景下工作的很好？云的安全问题有哪些？

19、如何你打算发100万的营销活动邮件。你怎么去优化发送？你怎么优化反应率？能把这二个优化份开吗？

20、如果有几个客户查询ORACLE数据库的效率很低。为什么？你做什么可以提高速度10倍以上，同时可以更好处理大数量输出？

21、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？

22、什么是哈希表碰撞攻击？怎么避免？发生的频率是多少？

23、如何判别mapreduce过程有好的负载均衡？什么是负载均衡？

24、你处理过白名单吗？主要的规则？(在欺诈或者爬行检验的情况下)

25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说？对于数据库分析的评价？

26、为什么朴素贝叶斯差？你如何使用朴素贝叶斯来改进爬虫检验算法？

27、普通线性回归模型的缺陷是什么？你知道的其它回归模型吗？

28、什么是星型模型？什么是查询表？

29、你可以使用excel建立逻辑回归模型吗？如何可以，说明一下建立过程？

30、在SQL, Perl, C++, Python等编程过程上，待为了提升速度优化过相关代码或者算法吗？如何及提升多少？

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案？取决于什么内容？

32、定义：QA(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例？

33、什么是敏感性分析？拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好？你如何使用交叉验证？你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看？

34、你认为叶数小于50的决策树是否比大的好？为什么？

35、保险精算是否是统计学的一个分支？如果不是，为何如何？

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。

37、你如何建议一个非参数置信区间？

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比？你对A/B测试熟吗？

39、为什么说均方误差不是一个衡量模型的好指标？你建议用哪个指标替代？

40、对于一下逻辑回归、决策树、神经网络，

在过去中这些技术做了哪些大的改进？

41、除了主成分分析外你还使用其它数据降维技术吗？你怎么想逐步回归？你熟悉的逐步回归技术有哪些？什么时候完整的数据要比降维的数据或者样本好？

42、如何创建一个关键字分类？

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率？

44、什么是归因分析？如何识别归因与相关系数？举例。

45、如何定义与衡量一个指标的预测能力？

46、如何为欺诈检验得分技术发现最好的规则集？你如何处理规则冗余、规则发现和二者的本质问题？一个规则集的近似解决方案是否可行？如何寻找一个可行的近似方案？你如何决定这个解决方案足够好从而可以停止寻找另一个更好的？

47、什么是概念验证？

48、什么是僵尸网络？如何进行检测？

49、你有使用过API接口的经验吗？什么样的API？是谷歌还是亚马逊还是软件即时服务？

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好？

51、可视化使用什么工具？在作图方面，你如何评价Tableau？R？SAS？在一个图中有效展现五个维度？

52、是假阳性好还是假阴性好？

53、你主要与什么样的客户共事：内部、外部、销售部门/财务部门/市场部门/IT部门的人？有咨询经验吗？与供应商打过交道，包括供应商选择与测试。

54、你熟悉软件生命周期吗？及IT项目的生命周期，从收入需求到项目维护？

55、什么是cron任务？

56、你是一个独身的编码人员？还是一个开发人员？或者是一个设计人员？

57、什么让一个图形使人产生误解、很难去读懂或者解释？一个有用的图形的特征？

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗？分别给案例。

59、Zillow’s算法是如何工作的？

60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户？

61、你如何创建一个新的匿名数字帐户？

62、你有没有想过自己创业？是什么样的想法？

63、你认为帐号与密码输入的登录框会消失吗？它将会被什么替代？

64、你用过时间序列模型吗？时滞的相关性？相关图？光谱分析？信号处理与过滤技术？在什么样的场景下？

65、哪位数据科学有你最佩服？从哪开始？

66、你是怎么开始对数据科学感兴趣的？

67、你觉得下一个最好的5个预测方法是？

68、什么是推荐引擎？它是如何工作的？

69、什么是精密测试？如何及什么时候模拟可以帮忙我们不使用精密测试？

70、你认为怎么才能成为一个好的数据科学家？

71、你认为数据科学家是一个艺术家还是科学家？

72、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误，或者是用作支撑作者的论点，而不是仅仅在罗列某个事物的信息？例如，对于每月官方定期在媒体公开发布的失业统计数据，你有什么感想？怎样可以让这些数据更加准确？

73、给出一些在数据科学中“最佳实践的案例”。

74、什么是效率曲线？他们的缺陷是什么，你如何克服这些缺陷？

75、你处理过的最大的数据量？你是如何处理他们的？处理的结果。

76、什么是一个好的、快速的聚类算法的的计算复杂度？什么好的聚类算法？你怎么决定一个聚类的聚数？

77、你知道使用在统计或者计算科学中的“经验法则”吗？或者在商业分析中。

上述的这些问题在面试数据分析师的求职者中非常容易遇到的，有些的涉及到专业性的问题，因此在面试之前一定要做好充足的准备！

篇3：数据分析师常见的面试问题

数据分析师常见的面试问题

1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。

2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?

3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?

4、什么是：协同过滤、n-grams， map reduce、余弦距离?

5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?

6、如何设计一个解决抄袭的方案?

7、如何检验一个个人支付账户都多个人使用?

8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?

9、你认为哪个更好：是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?

10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?

11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?

12、你最喜欢的编程语言是什么?为什么?

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS， R， Python， Perl语言的区别是?

15、什么是大数据的诅咒?

16、你参与过数据库与数据模型的设计吗?

17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?

18、你喜欢TD数据库的什么特征?

19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?

20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上，同时可以更好处理大数量输出?

21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?

22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?

23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?

24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?

25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说?对于数据库分析的评价?

26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?

27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)

28、什么是星型模型?什么是查询表?

29、你可以使用excel建立逻辑回归模型吗?如何可以，说明一下建立过程?

30、在SQL， Perl， C++， Python等编程过程上，待为了提升速度优化过相关代码或者算法吗?如何及提升多少?

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?

32、定义：QA(质量保障)、六西格玛、实验设计，

好的与坏的实验设计能否举个案例?

33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?

34、你认为叶数小于50的决策树是否比大的好?为什么?

35、保险精算是否是统计学的一个分支?如果不是，为何如何?

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。

37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?

39、什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看?

40、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?

41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的'数据要比降维的数据或者样本好?

42、你如何建议一个非参数置信区间?

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?

44、什么是归因分析?如何识别归因与相关系数?举例。

45、如何定义与衡量一个指标的预测能力?

46、如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如何决定这个解决方案足够好从而可以停止寻找另一个更好的?

47、如何创建一个关键字分类?

48、什么是僵尸网络?如何进行检测?

49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?

51、可视化使用什么工具?在作图方面，你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?

52、什么是概念验证?

53、你主要与什么样的客户共事：内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道，包括供应商选择与测试。

54、你熟悉软件生命周期吗?及IT项目的生命周期，从收入需求到项目维护?

55、什么是cron任务?

56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?

57、是假阳性好还是假阴性好?

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。

59、Zillow’s算法是如何工作的?

60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?

61、你如何创建一个新的匿名数字帐户?

62、你有没有想过自己创业?是什么样的想法?

63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?

64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?

65、哪位数据科学有你最佩服?从哪开始?

篇4：数据分析师常见的面试问题

随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。

1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。

2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?

3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?

4、什么是：协同过滤、n-grams, map reduce、余弦距离?

5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?

6、如何设计一个解决抄袭的方案?

7、如何检验一个个人支付账户都多个人使用?

8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?

9、你认为哪个更好：是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?

10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?

11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?

12、你最喜欢的编程语言是什么?为什么?

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS, R, Python, Perl语言的区别是?

15、什么是大数据的诅咒?

16、你参与过数据库与数据模型的设计吗?

17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?

18、你喜欢TD数据库的什么特征?

19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?

20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上，同时可以更好处理大数量输出?

21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?

22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?

23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?

24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?

25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说?对于数据库分析的评价?

26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?

27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)

28、什么是星型模型?什么是查询表?

29、你可以使用excel建立逻辑回归模型吗?如何可以，说明一下建立过程?

30、在SQL, Perl, C++, Python等编程过程上，待为了提升速度优化过相关代码或者算法吗?如何及提升多少?

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?

32、定义：QA(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例?

33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?

34、你认为叶数小于50的决策树是否比大的好?为什么?

35、保险精算是否是统计学的一个分支?如果不是，为何如何?

篇5：数据分析师常见的面试问题

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。

37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?

40、对于一下逻辑回归、决策树、神经网络。在过去中这些技术做了哪些大的改进?

41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?

42、你如何建议一个非参数置信区间?

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?

44、什么是归因分析?如何识别归因与相关系数?举例。

45、如何定义与衡量一个指标的预测能力?

47、如何创建一个关键字分类?

48、什么是僵尸网络?如何进行检测?

49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?

51、可视化使用什么工具?在作图方面，你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?

52、什么是概念验证?

53、你主要与什么样的客户共事：内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道，包括供应商选择与测试。

54、你熟悉软件生命周期吗?及IT项目的生命周期，从收入需求到项目维护?

55、什么是cron任务?

56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?

57、是假阳性好还是假阴性好?

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。

59、Zillow’s算法是如何工作的?

60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?

61、你如何创建一个新的匿名数字帐户?

62、你有没有想过自己创业?是什么样的想法?

63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?

64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?

65、哪位数据科学有你最佩服?从哪开始?

66、你是怎么开始对数据科学感兴趣的?

67、什么是效率曲线?他们的缺陷是什么，你如何克服这些缺陷?

68、什么是推荐引擎?它是如何工作的?

69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?

70、你认为怎么才能成为一个好的数据科学家?

71、你认为数据科学家是一个艺术家还是科学家?

72、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?

73、给出一些在数据科学中“最佳实践的案例”。

74、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?

75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。

76、你觉得下一个最好的5个预测方法是?

77、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误，或者是用作支撑作者的论点，而不是仅仅在罗列某个事物的信息?例如，对于每月官方定期在媒体公开发布的失业统计数据，你有什么感想?怎样可以让这些数据更加准确?

篇6：数据分析师常见的面试问题

数据分析师常见的面试问题集锦

随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考，

1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。

2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?

3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?

4、什么是：协同过滤、n-grams, map reduce、余弦距离?

5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?

6、如何设计一个解决抄袭的方案?

7、如何检验一个个人支付账户都多个人使用?

8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?

9、你认为哪个更好：是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?

10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?

11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?

12、你最喜欢的编程语言是什么?为什么?

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的`3个理由。

14、SAS, R, Python, Perl语言的区别是?

15、什么是大数据的诅咒?

16、你参与过数据库与数据模型的设计吗?

17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?

18、你喜欢TD数据库的什么特征?

19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?

20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上，同时可以更好处理大数量输出?

21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?

22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?

23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?

24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?

25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说?对于数据库分析的评价?

26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?

27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)

28、什么是星型模型?什么是查询表?

29、你可以使用excel建立逻辑回归模型吗?如何可以，说明一下建立过程?

30、在SQL, Perl, C++, Python等编程过程上，待为了提升速度优化过相关代码或者算法吗?如何及提升多少?

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?

32、定义：QA(质量保障)、六西格玛、实验设计，

好的与坏的实验设计能否举个案例?

33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?

34、你认为叶数小于50的决策树是否比大的好?为什么?

35、保险精算是否是统计学的一个分支?如果不是，为何如何?

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。

37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?

40、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?

41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?

42、你如何建议一个非参数置信区间?

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?

44、什么是归因分析?如何识别归因与相关系数?举例。

45、如何定义与衡量一个指标的预测能力?

47、如何创建一个关键字分类?

48、什么是僵尸网络?如何进行检测?

49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?

51、可视化使用什么工具?在作图方面，你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?

52、什么是概念验证?

53、你主要与什么样的客户共事：内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道，包括供应商选择与测试。

54、你熟悉软件生命周期吗?及IT项目的生命周期，从收入需求到项目维护?

55、什么是cron任务?

56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?

57、是假阳性好还是假阴性好?

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。

篇7：数据分析师常见的面试问题

1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。

2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?

3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?

4、什么是：协同过滤、n-grams, map reduce、余弦距离?

5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?

6、如何设计一个解决抄袭的方案?

7、如何检验一个个人支付账户都多个人使用?

8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?

9、你认为哪个更好：是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?

10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?

11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?

12、你最喜欢的编程语言是什么?为什么?

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS, R, Python, Perl语言的区别是?

15、什么是大数据的诅咒?

16、你参与过数据库与数据模型的设计吗?

17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?

18、你喜欢TD数据库的什么特征?

19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?

20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上，同时可以更好处理大数量输出?

21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?

22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?

23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?

24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?

25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说?对于数据库分析的评价?

26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?

27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)

28、什么是星型模型?什么是查询表?

29、你可以使用excel建立逻辑回归模型吗?如何可以，说明一下建立过程?

30、在SQL, Perl, C++, Python等编程过程上，待为了提升速度优化过相关代码或者算法吗?如何及提升多少?

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?

32、定义：QA(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例?

33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?

34、你认为叶数小于50的决策树是否比大的好?为什么?

35、保险精算是否是统计学的一个分支?如果不是，为何如何?

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。

37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?

40、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?

41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?

42、你如何建议一个非参数置信区间?

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率?

44、什么是归因分析?如何识别归因与相关系数?举例。

45、如何定义与衡量一个指标的预测能力?

47、如何创建一个关键字分类?

48、什么是僵尸网络?如何进行检测?

49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?

51、可视化使用什么工具?在作图方面，你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?

52、什么是概念验证?

53、你主要与什么样的客户共事：内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道，包括供应商选择与测试。

54、你熟悉软件生命周期吗?及IT项目的生命周期，从收入需求到项目维护?

55、什么是cron任务?

56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?

57、是假阳性好还是假阴性好?

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。

59、Zillow’s算法是如何工作的?

60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?

61、你如何创建一个新的匿名数字帐户?

62、你有没有想过自己创业?是什么样的想法?

63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?

64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?在什么样的场景下?

65、哪位数据科学有你最佩服?从哪开始?

66、你是怎么开始对数据科学感兴趣的?

67、什么是效率曲线?他们的缺陷是什么，你如何克服这些缺陷?

68、什么是推荐引擎?它是如何工作的?

69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?

70、你认为怎么才能成为一个好的数据科学家?

71、你认为数据科学家是一个艺术家还是科学家?

72、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?

73、给出一些在数据科学中“最佳实践的案例”。

74、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?

75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。

76、你觉得下一个20年最好的5个预测方法是?

[数据分析师常见的面试问题集锦]

【数据分析师的面试试题】相关文章：

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式

面试问题图文推荐

数据分析师的面试试题相关文章