新浪笔试题之数据挖掘题
“小刺猬”通过精心收集,向本站投稿了11篇新浪笔试题之数据挖掘题,下面就是小编整理后的新浪笔试题之数据挖掘题,希望大家喜欢。
篇1:新浪笔试题之数据挖掘题
1.链表使用情形
删除和添加操作比较多的时候
2.一个网络,包含6个子网,子网中最多有26台主机,问子网掩码是多少?
26台主机,所以需要5个位置保存主机号。因为25=32
6个子网,所以需要3个位置保存子网号。因为23=8
11111111, 11111111, 1111 1111, ×××
子网号 主机号
子网掩码的二进制形式:
11111111, 11111111, 11111111, 11100000
转化成十进制:255.255.255.224
3.数据挖掘中的apri算法,何时剪枝?
Apriori算法在产生频繁集之后,根据最小支持度剪枝,小于supmin的树枝将被剪掉。
4.Linux中如何查看系统磁盘空间?
df
查看进程信息 :ps
查看系统资源(CPU,内存,文件描述符的占用情况)使用信息:top
5.如何查看DNS服务器的ip地址?
在cmd中nslookup,(windows和linux都好使),则出现本机的default server 和address。
接着输入set querytype=NS,然后就可以输入要查的服务器的域名了。比如:baidu.com,结果如下:
>baidu.com
Server: dns.cau.edu.cn
Address: 202.205.80.132
Non-authoritative answer:
baidu.com nameserver = ns4.baidu.com
baidu.com nameserver = ns3.baidu.com
baidu.com nameserver = ns2.baidu.com
baidu.com nameserver = dns.baidu.com
dns.baidu.com internet address = 202.108.22.220
ns2.baidu.com internet address = 61.135.165.235
ns3.baidu.com internet address = 220.181.37.10
ns4.baidu.com internet address = 220.181.38.10
篇2:新浪笔试题之数据挖掘题
1.http面向连接还是无连接?面向对象还是面向记录?
应用层 无连接,不保存状态
传输层 TCP
网络层 IP
数据链路层 PPP,以太网,令牌环
物理层 双绞线,同轴电缆,光缆,蓝牙(2.4GHz,10m以内),wifi/802.11G协议(2.4Ghz),X.25
http即超文本传输协议,无连接,没有会话,每次请求一次性报告完毕。
后面的问题不知道了。
2.木马是蠕虫吗?防火墙可否有效地防止病毒?
木马不是蠕虫,防火墙也不可以防止病毒。
对于一台电脑,病毒的来源有:网页(自己去访问页面被自动执行的那些东东)、移动设备(U盘、光盘、移动硬盘等那些和电脑有过数据交换,并且可以自身携带“程序”的设备,可能在你访问设备或不访问设备的时候悄悄进入电脑的)、不知名的(肯定是要联网的嘛,比如QQ等在你聊天的时候偷偷溜进来的)。
防火墙根据源地址、目的地址、端口号判断是否进行拦截,而不针对具体的内容进行分析。所以,如果从防火墙认为安全的端口传播病毒,防火墙也是防不住的。
3.给定集合,找出支持度为3的关联规则
感觉题目很是宽泛,没有给出准确的集合。还有支持度是项集出现的概率,不应为整数吧
那就找出现过3次的频繁集吧~,注意不是项集哦!
4.DNS的作用?域名转为ip地址
域名解析协议,将域名转为IP地址
5.ARP的作用?ip地址转为物理地址
地址解析协议,将IP地址转为物理地址
篇3:新浪笔试题之数据挖掘题
1.网页中能保存用户名密码的功能由什么实现?cookie,(重复)
Cookie和历史记录
2.网页访问成功后返回的状态值是?404还是304?
200访问成功
301永久重定向
302重定向
404页面不存在,没有找到
500服务器内部错误
3.环比增长速度是12%,11%,13&,14%,那么*基速度是多少?
各环比增长速度加1后连乘积再减1等于定基增长速度
先应将各环比增长速度加1换算成环比发展速度,然后再连乘换算成定基发展速度,最后再减1即得定基增长速度
故发展速度 : 1.12*1.11*1.13*1.14=1.6
定基增长速度为 60%
4.观察事物的动态变换用什么方法?指数,时间序列,频率统计,回归方程?
首先记录,记录的形式有数据、图片、声音等各种信息,终归结底是能够被计算机识别和保存的那种方式。
然后比较,根据不同的属性和维度。
再用各种数学方法进行分析。
篇4:百度校园招聘数据挖掘笔试题
,
15分
3、数组a[0],a[1]…a[n-1]是数轴上从左到右的n个数字点,长为L的绳子最多能覆盖几个点?15分
三、系统设计25分 记不清了!!好像如下:
查询q,将样本分为两类xi和xj两个集合,yi和yj是对应相关函数,yi比yj更相关则记为xi>xj;fi(xi)和fj(xj),定义损失函数为 L=log(1+e^(fj-fi));xi>xj 1,求L关于fj,fi的导数; 2.损失函数的缺陷,重新设计
篇5:新浪河南站笔试题
新浪河南站笔试题
一、你喜欢哪个报纸 为什么
二、你喜欢新浪哪个频道 为什么 ? 同同类网站相同频道相比,各有何优劣
三、国外五家著名财经媒体
四,你喜欢哪个主持人 为什么
今天从郑州回来了,有点晕,因为明天要回家,上网就不方便,把我能记住的继续分享给大家,
综述题目:选择其中一个话题,从报纸,或者网络 等任何两种媒体角度分析 话题有奥运开幕式 当选 反正就是类似的,还有个 我忘记了,呵呵,今天站了四个小时多,因为晚点了,真的晕了。
最后一题:近两年你感到最自豪的`事情
这是所有主观题。客观题25道,30分钟做完发到给定的手机号码上去,
客观题较为全面,经济政治文化体育各个方面的都有,大部分题目不是很难,好多都是最近的新闻,只不过考得很细。
整个笔试过程很正规,我以前是没参加过这样的招聘。我在期末考试也没感到这样正规,试卷都是密封的,说实话当时我有点紧张。
篇6:新浪综合类笔试题
新浪综合类笔试题
应届毕业生求职网整理了新浪综合类笔试题,供参考:
1选择
GDP,邱兴华杀人事件发生时间,孙志刚事件发生时间,现在的牛市,06年新上市的银行有几家,CNNI是在哪年,中国入世哪年,最近的亚运会在
哪年....
2论述
一个优秀的网络编辑要具备怎样的特长?
请列举三个你常看的网络媒体和传统媒体,比较它们的异同.
博客频道
1.请列举5个你最常关注的博客,写出其博客特点
2.写出10个网络名人,其出名原因
3.写出10个你熟悉的网络写手或网络原创作家,写出其语言风格
4.写出几个你最常关注的博客的.网站,并写出他们各自的优势
5.你是否经常写博客,写出你博客的地址,更新频率以及博客的特点
6,你是通过什么方式定置你关注的博客的
7.你曾经参加过或组织过活动或社团,如网友见面会,是否曾经担任过论坛斑竹,组织过哪些活动,你论坛发展方向是什么,主导是什么,你的主要
ID是什么
8.写出10个你常去的论坛
篇7:新浪校园招聘笔试题
新浪校园招聘笔试题
一、综合部分 (所有人都要做的)
单选25个,包括法国现任总统、十七大闭幕时间、嫦娥飞升时间、好男儿首届年份、新浪的收费业务、06年GDP增幅、阿拉法特逝世年份等等,
简答两道:
1、讲述大学入学以来最令你自豪的一件事,原因。
2、(2选一)你最喜欢的三位节目主持人,分析他们的主持风格和你为什么喜欢他们;谈谈报纸和网络的区别
二、专业部分(主观题)
(由于我报的是博客编辑,所以涉及的都是与博客有关的'内容)
1、谈谈新浪、网易、搜狐、腾讯四家博客各自的特点,你最喜欢哪个,为什么。
2、你认为新浪博客最好和最坏的功能分别是什么,为什么,
你认为最应该增加的功能是什么。
3、说说促进大学生写博客热情的措施。
4、列举本年度博客5件大事。
5、网络新闻的选择标准。
6、给了一篇某网友的博客,让你根据内容重新给起个标题,并说明新闻标题的要求。
7、给出两对标题,指出你认为适合网络的标题,说原因。其中一对是“北京第一大姓是什么”“北京第一大姓是王”
8、如今《色戒》上映正火,请你做下这部片子的博客首页专题。
9、策划一个专题。
10、(计算机题)第一道给出了一份网页编程的截图,让你说明效果是什么;第二道列举常用网页编辑软件和图片格式。
11、(翻译题)新浪想邀请英国某名人来开博,请你给她写封邀请信,先写中文再翻译成英文。
12、新浪想请李素丽来开博,写出你所想到的所有措施。
13、网络编辑应该具备的职业素质。
篇8:新浪php工程师笔试题
新浪php工程师笔试题
1、COOKIE、SESSION的联系和区别,多台web服务器如何共享SESSION?
2、HTTP协议中的POST和GET有何区别?
3、一段php代码,写出输出结果,不难,但设了小小的陷阱,
4、reqiure的include都可包含文件,二者的区别何在?
(至此处我做的`还不错,往下就惨了)
5、php中WEB上传文件的原理是什么,如何限制上传文件的大小?
6、写一个函数,可以遍历文件夹下的所有文件和文件夹。
7、8、中间有几个unix shell的题目(好像是两个),因为不懂,不记得这些题目了
9、有mail.log的一个文档,内容为若干邮件地址,其中用’
‘将邮件地址分隔。要求从中挑选出sina.com的邮件地址(包括从文件读取、过滤到列印出来),
mail.log内容如下:
james@sina.com.cn
jack@163.com
zhansan@sohu.com
lisi@hotmail.com
wangwu@gmail.com
10、js中网页前进和后退的代码
11、window(A)中用window.open打开了window(B),如何从窗口B调用窗口A中的内容?A、B仅仅是窗口的代号,不是窗口名字
12、了解ajax吗?用过吗?……
13、什么是MVC?用过吗?使用时遇到了什么问题,怎么解决的?
数据库设计题目:
14、于用户注册和bbs留言的,挺简单,设计几个表,写几个SQL语句,但最后两小问我有点蒙:一个是跟web服务器有关的,另一个是要求最优化查询语句。
15、进行一个树状菜单的数据库设计,这个树状菜单可以有无限级的子菜单。不会做!
篇9:数据分析笔试题
数据分析笔试题
数据分析题, 3个图表。
第一个图表1-2题,问关于35岁以下通勤人数。(数字比较大,最好能带个计算器。)
第二个图表3-4题,问什么我给忘记了……不难,数字也很好算。
第三个图表5题,问哪年哪个学校合格率高,
(这题最好也用计算器,数字蛮变态的`,不是整除的数)
逻辑推理。貌似15个还是20个。
其实有点像公务员的行政能力测试题,不难,考逻辑推理的,基本认真想想都能推理出来。
篇10:大数据技术Hadoop笔试题
大数据技术Hadoop笔试题
单项选择题
1. 下面哪个程序负责 HDFS 数据存储。
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2. HDfS 中的 block 默认保存几份?
a)3 份
b)2 份
c)1 份
d)不确定
3. 下列哪个程序通常与 NameNode 在一个节点启动?
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
4. Hadoop 作者
a)Martin Fowler
b)Kent Beck
c)Doug cutting
5. HDFS 默认 Block Size
a)32MB
b)64MB
c)128MB
6. 下列哪项通常是集群的最主要瓶颈
a)CPU
b)网络
c)磁盘
d)内存
7. 关于 SecondaryNameNode 哪项是正确的?
a)它是 NameNode 的热备
b)它对内存没有要求
c)它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
d)SecondaryNameNode 应与 NameNode 部署到一个节点
多选题
8. 下列哪项可以作为集群的管理工具
a)Puppet
b)Pdsh
c)Cloudera Manager
d)d)Zookeeper
9. 配置机架感知的'下面哪项正确
a)如果一个机架出问题,不会影响数据读写
b)写入数据的时候会写到不同机架的 DataNode 中
c)MapReduce 会根据机架获取离自己比较近的网络数据
10. Client 端上传文件的时候下列哪项正确
a)数据经过 NameNode 传递给 DataNode
b)Client 端将文件切分为 Block,依次上传
c)Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
11. 下列哪个是 Hadoop 运行的模式
a)单机版
b)伪分布式
c)分布式
12. Cloudera 提供哪几种安装 CDH 的方法
a)Cloudera manager
b)Tar ball
c)Yum d)Rpm
判断题
13. Ganglia 不仅可以进行监控,也可以进行告警。( )
14. Block Size 是不可以修改的。( )
15. Nagios 不可以监控 Hadoop 集群,因为它不提供 Hadoop 支持。( )
16. 如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。( )
17. Cloudera CDH 是需要付费使用的。( )
18. Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。( )
19. Hadoop 支持数据的随机读写。( )
20. NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。( )
21. NameNode 本地磁盘保存了 Block 的位置信息。( )
22. DataNode 通过长连接与 NameNode 保持通信。( )
23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。( )
24. Slave 节点要存储数据,所以它的磁盘越大越好。( )
25. hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。( )
26. Hadoop 默认调度器策略为 FIFO( )
27. 集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运行,
( )
28. 因为 HDFS 有多个副本,所以 NameNode 是不存在单点问题的。( )
29. 每个 map 槽就是一个线程。( )
30. Mapreduce 的 input split 就是一个 block。( )
31. NameNode 的 Web UI 端口是 50030,它通过 jetty 启动的 Web 服务。( )
32. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。( )
33. DataNode 首次加入 cluster 的时候,如果 log 中报告不兼容文件版本,那需要 NameNode执行“Hadoop namenode -format”操作格式化磁盘。( )
别走开,答案在后面哦!
1. 下面哪个程序负责 HDFS 数据存储。答案C datanode
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
2. HDfS 中的 block 默认保存几份? 答案A默认3分
a)3 份
b)2 份
c)1 份
d)不确定
3. 下列哪个程序通常与 NameNode 在一个节点启动?答案D
a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker
此题分析:
hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和 tasktracker属于slave,master只有一个,而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。
JobTracker和TaskTracker
JobTracker 对应于 NameNode
TaskTracker 对应于 DataNode
DataNode 和NameNode 是针对数据存放来而言的
JobTracker和TaskTracker是对于MapReduce执行而言的
mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:obclient,JobTracker与TaskTracker。
1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs,并把路径提交到Jobtracker, 然后由JobTracker创建每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行。
2、JobTracker是一个master服务,软件启动之后JobTracker接收Job,负责调度Job的每一个子任务task运行于 TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。
3、TaskTracker是运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信,接收作业,并负责直接执行每一个任务。TaskTracker都需要运行在HDFS的DataNode上。
4. Hadoop 作者 答案C Doug cutting
a)Martin Fowler
b)Kent Beck
c)Doug cutting
5. HDFS 默认 Block Size 答案:B
a)32MB
b)64MB
c)128MB
(因为版本更换较快,这里答案只供参考)
6. 下列哪项通常是集群的最主要瓶颈:答案:C磁盘
a)CPU
b)网络
c)磁盘IO
d)内存
该题解析:
首先集群的目的是为了节省成本,用廉价的pc机,取代小型机及大型机。小型机和大型机有什么特点?
1.cpu处理能力强
2.内存够大
所以集群的瓶颈不可能是a和d
3.网络是一种稀缺资源,但是并不是瓶颈。
4.由于大数据面临海量数据,读写数据都需要io,然后还要冗余数据,hadoop一般备3份数据,所以IO就会打折扣。
7. 关于 SecondaryNameNode 哪项是正确的?答案C
a)它是 NameNode 的热备
b)它对内存没有要求
c)它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间
篇11:数据表示形式笔试题
数据表示形式笔试题
1、计算机中数据的表示形式是
A)八进制 B)十进制 C)二进制 D)十六进制
2、硬盘工作时应特别注意避免
A)噪声 B)震动 C)潮湿 D)日光
3、针式打印机术语中,24针是指
A)24x24点阵 B)信号线插头有24针 C)打印头内有24x24根针 D)打印头内有24根
针
4、下面列出的四种存储器中,易失性存储器是
A)RAM B)ROM C)PROM D)CD-ROM
5、办公自动化是计算机的一项应用,按计算机应用的分类,它属于
A)科学计算 B)实时控制 C)数据处理 D)辅助设计
6、I/O接口位于
A)总线和设备之间 B)CPU和I/O设备之间C)主机和总线之间 D)CPU和主存储器之
间
7、计算机硬件能直接识别和执行的`只有
A)高级语言 B)符号语言 C)汇编语言 D)机器语言
8、具有多媒体功能的微型计算机系统中,常用的CD-ROM是
A)只读型大容量软盘 B)只读型光盘 C)只读型硬盘 D)半导体只读存储器
9、微机中1K字节表示的二进制位数是
A)1000 B)8x1000 C)1024 D)8x1024
10、下列字符中,ASCII码值最小的是
A)a B)A C)x D)Y
【新浪笔试题之数据挖掘题】相关文章:
1.笔试题
4.CPMP笔试题
5.笔试题继承
6.笔试题编译程序
7.HTC笔试题
9.雅虎笔试题
10.摩托罗拉笔试题






文档为doc格式