1. 数据的不确定性的产生原因不包括()。

A. 数据采集与传输
B. 数据特征描述
C. 数据精度转换
D. 缺失值处理

2. 下列演示方式中,不属于传统统计图方式的是()。

A. 曲线图
B. 柱状图
C. 饼状图
D. 网络图

3. Kmeans算法包括如下步骤: ①在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类; ②更新中心点为每类的均值; ③随机选取k个中心点; ④j<-j+1,迭代更新,直至误差小到某个值或者到达一定的迭代步数,误差不变。 这些步骤正确的排序是()。

A. ①②③④
B. ③①②④
C. ①④③②
D. ④③②①

4. 下面哪一项不属于大数据系统的必备要素()。

A. 数据库
B. 数据
C. 物联网
D. 云平台

5. 以下哪个是聚类分析的典型算法()。

A. KNN算法
B. K均值算法
C. SVM算法
D. Apriori算法

6. 目前所获取的总数据量的80%以上都是()数据。。

A. 非结构化
B. 半结构化
C. 文本
D. 结构化

7. 大数据的(),指的是数据有很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显

A. 大量性
B. 低价值密度
C. 多样性
D. 高速

8. ()的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A. 数据归约
B. 数据变换
C. 数据集成
D. 数据清洗

9. 数据可视化中实现中数据映射指的是

A. 概括现实生活中用户遇到的问题
B. 视图的选择与用户交互控制的设计
C. 确定数据到标记和视觉通道的映射
D. 从数据源中选取有效数据

10. 反映数据的精细化程度,越细化的数据,价值越高。

A. 关联度
B. 颗粒度
C. 活性
D. 规模

11. 可视化实现时,根据可视化目标选择相应的图表形式,如果关注3个变量的分布情况,可选择()。

A. 柱状直方图
B. 二维散点图
C. 3D区域图
D. 折线直方图

12. 以下哪些算法是分类算法()。

A. DBSCAN
B. K-Means
C. C4.5
D. EM

13. 美国沃尔玛连锁超市的真实案例\:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这个案例是使用了()的典型例子。

A. 聚类
B. 关联规则
C. 物联网
D. 云计算

14. 以下哪一项不属于Hadoop可以运行的模式()。

A. 单机(本地)模式
B. 分布式模式
C. 伪分布式模式
D. 互联模式

15. 预测建模任务主要包括哪几大类问题?

A. 模式发现和模式匹配
B. 分类和回归
C. 分类和模式匹配
D. 分类和模式发现

16. 下列关于MapReduce说法不正确的是()。。

A. MapReduce是一种计算框架
B. MapReduce隐藏了并行计算的细节,方便使用
C. MapReduce程序只能用Java语言编写
D. MapReduce来源于google的学术论文

17. 如下哪个不是最近邻分类器的特点。

A. 可以生产任意形状的决策边界
B. 最近邻分类器基于全局信息进行预测
C. 分类一个测试样例开销很大
D. 它使用具体的训练实例进行预测,不必维护源自数据的模型

18. 在统计计算中,()算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。

A. KNN算法
B. 最大期望算法
C. Apriori算法
D. K-Means算法

19. 以下哪些学科和大数据技术有密切联系

A. 马列主义
B. 统计
C. 矿产挖掘
D. 人工智能

20. 医疗领域可以怎样利用大数据

A. 临床决策支持
B. 用户行为分析
C. 个性化医疗
D. 社保资金安全

21. 将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为()。所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。

A. 云计算
B. 聚类
C. 关联规则
D. 机器学习

22. 目前所获取的总数据量的80%以上都是()数据。。

A. 非结构化
B. 结构化
C. 半结构化
D. 文本

23. HDFS中的block默认保存()份

A. 2
B. 1
C. 不确定
D. 3

24. 大数据的特征不包含()。

A. 规模性
B. 多样性
C. 高速性
D. 价值密度高

25. 将以下大数据的6V特征对应起来

A. 快速性->Velocity
B. 大量性->Volume
C. 多样性->Variety
D. 可视化->Visualization
E. 真实性->Veracity
F. 价值密度->Value

26. MapReduce任务过程分为两个处理阶段:map阶段和()阶段。。

A. Map/Reduce
B. map
C. master
D. reduce

27. 以下哪个不属于分类算法()。

A. 决策树
B. KNN算法
C. K均值算法
D. 朴素贝叶斯

28. 预测建模任务主要包括哪几大类问题?

A. 分类和回归
B. 分类和模式发现
C. 模式发现和模式匹配
D. 分类和模式匹配

29. 美国沃尔玛连锁超市的真实案例\:尿布与啤酒这两种风马牛不相及的商品居然摆在一起,但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这个案例是使用了()的典型例子。

A. 云计算
B. 物联网
C. 聚类
D. 关联规则

30. Kmeans算法包括如下步骤: ①在第j次迭代中,对于每个样本点,选取最近的中心点,归为该类; ②更新中心点为每类的均值; ③随机选取k个中心点; ④j<-j+1,迭代更新,直至误差小到某个值或者到达一定的迭代步数,误差不变。 这些步骤正确的排序是()。

A. ③①②④
B. ①②③④
C. ④③②①
D. ①④③②

31. HDFS默认BlockSize的大小是()。

A. 128MB
B. 32MB
C. 256MB
D. 64MB

32. 大数据环境下的隐私担忧,主要表现为()。

A. 用户画像的生成
B. 病毒入侵
C. 恶意广告推送
D. 个人信息的被识别与暴露

33. 许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险,这是大数据在()的技术。

A. 知识搜索
B. 数据校验
C. 预测分析
D. 数据整合

34. 大数据的(),指的是数据有很多不同形式(文本、图像、视频、机器数据),无模式或者模式不明显

A. 低价值密度
B. 多样性
C. 大量性
D. 高速

35. 是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

A. 核心点
B. 质心
C. 边界点
D. 离群点

36. 大数据往往是指()及以上级别的数据量。

A. GB
B. TB
C. MB
D. PB

37. 下面哪一项不属于大数据关键技术()。

A. 分布式文件系统
B. 关系型数据库
C. 数据众包
D. 云计算

38. 分类与回归树(ClassificationAndRegressionTree)是一种()。

A. 最小生成树
B. 无向图
C. 有向图
D. 决策树

39. 框架由一个单独的master JobTracker和每个集群节点一个slave TaskTracker共同组成。

A. master
B. Map
C. Reduce
D. Map/Reduce

40. 以下哪一项不属于Hadoop可以运行的模式()。

A. 互联模式
B. 单机(本地)模式
C. 分布式模式
D. 伪分布式模式

41. 是目标类数据的一般特性的汇总,通常以用户指定类的数据通过数据库查询收集,其输出可以用多种形式呈现,例如饼图,条形图,折线图等等。

A. 数据整合
B. 数据特征
C. 数据采集
D. 数据属性

42. Hadoop框架中最核心的设计是()。

A. ZooKeeper和HDFS
B. MapReduce和HDFS
C. Hive和HDFS
D. MapReduce和Hive

43. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?

A. 预测建模
B. 建模描述
C. 根据内容检索
D. 寻找模式和规则

44. 表示数据分布的集中位置,如Mean:平均数、Median:中位数、Mode:众数等。

A. 离中趋势度
B. 数据属性
C. 数据分布形状
D. 集中趋势度量

45. 以下关于大数据关键问题的说法,不正确的是()。

A. 传统的统计理论与技术能很好地实现大数据知识发现
B. 大数据处理问题复杂多样,难以用一种单一的计算模式涵盖互联网企业表现强势
C. 大数据复杂性,不确定性特征描述的方法及大数据的系统建模是实现大数据知识发现的前提与关键
D. 非结构化与半结构化数据的处理是一项重要的课题

46. 以下哪些算法是分类算法()。

A. EM
B. K-Means
C. C4.5
D. DBSCAN

47. 下面()程序负责 HDFS 数据存储。

A. Datanode
B. Jobtracker
C. NameNode
D. SecondaryNameNode

48. 下列关于脏数据的说法中,正确的是()。

A. 与实际业务关系不大
B. 编码不统一
C. 格式不规范
D. 意义不明确

49. 医疗领域可以怎样利用大数据

A. 社保资金安全
B. 临床决策支持
C. 用户行为分析
D. 个性化医疗

50. 分类是预测数据对象的连续类别。。

A. 对
B. 错

51. 当前大数据技术的基础是由谷歌首先提出的。

A. 对
B. 错

52. 大数据还是一种思维方式和新的管理、治理路径。

A. 对
B. 错

53. 利用数据融合、数学模型、仿真技术等,可以逼近事物的本质,可以揭示出原来没有想到或难以展现的关联,大大提升政府决策的科学性。

A. 对
B. 错

54. 抽样统计是大数据处理的其中一项流程。

A. 对
B. 错

55. 原始数据集来自多个数据库或数据仓库,它们的结构和规则是相同的。

A. 对
B. 错

56. 在采集数据时要注意用户的隐私安全问题。

A. 对
B. 错

57. 内存通常是集群的最主要瓶颈。

A. 对
B. 错

58. HDFS中的block默认只保存1份。

A. 对
B. 错

59. 数据再利用可挖掘数据的潜在价值。

A. 对
B. 错

60. 智能健康手环的应用开发,体现了传感器的数据采集技术的应用。

A. 对
B. 错

61. 数据重组实现的关键在于多源数据融合和数据集成。

A. 对
B. 错

62. 大数据会带来机器智能。

A. 对
B. 错

63. 大数据技术可应用于金融、互联网、公共管理等不同的领域。

A. 对
B. 错

64. 大数据的应用可以促进健康管理的个性化和多元化。

A. 对
B. 错

65. 大数据的数据规模大,数据价值密度高。

A. 对
B. 错

66. Hadoop作者是Kent Beck。

A. 对
B. 错

67. K-means算法是有监督学习。

A. 对
B. 错

68. 大数据预测能够分析和挖掘出人们不知道或没有注意到的模式,计算各种事件发生的概率。

A. 对
B. 错

69. K均值算法是分类算法。

A. 对
B. 错

70. 大数据还是一种思维方式。

A. 对
B. 错

71. 数据重组有利于实现新颖的数据模式创新。

A. 对
B. 错

72. “啤酒和尿布”是关联规则分析的一个典型例子。

A. 对
B. 错

73. 聚类分析时不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别。

A. 对
B. 错

74. 数据重组是数据的重新生产和重新采集。

A. 对
B. 错

75. 大数据预测能够分析和挖掘出人们不知道或没有注意到的模式,确定判断事件必然会发生。

A. 对
B. 错

76. 大数据的应用之一是,促进健康管理的个性化和多元化。

A. 对
B. 错

77. 数据清洗的方法有缺失值处理、噪声数据清除、一致性检查等。

A. 对
B. 错

78. 大数据一般是指数量级为GB以上的数据。

A. 对
B. 错

79. 智慧城市的构建包括物联网、云计算、大数据等技术。

A. 对
B. 错

80. 数据可视化技术是指对各类型数据源的海量数据以及实时和接近实时的分布式数据进行显示。

A. 对
B. 错

81. 大数据的运用能够维护社会治安。

A. 对
B. 错

82. 大数据最显著的特征是数据价值密度高。

A. 对
B. 错

83. 大数据分析在分析效果上更追究效率而不是绝对精确。

A. 对
B. 错

84. 高德地图中的实时路况是一种大数据可视化的应用。

A. 对
B. 错

85. 大数据的运用能够加强交通管理。

A. 对
B. 错

86. 线性回归可用于预测分析。

A. 对
B. 错

87. 朴素贝叶斯是一种分类算法。

A. 对
B. 错

88. 数据仓库可支持决策。

A. 对
B. 错

89. 2015年8月31日,国务院印发了《促进大数据发展行动纲要》。

A. 对
B. 错

90. 数据仓库是面向业务的,支持联机事务处理(OLTP)。

A. 对
B. 错

91. 传统营销模式比基于大数据的营销模式针对性更强。

A. 对
B. 错

92. Apriori算法是一种典型的关联规则挖掘算法。

A. 对
B. 错

93. 数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段。

A. 对
B. 错

94. 决策树方法通常用于关联规则挖掘。

A. 对
B. 错

95. 对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确。

A. 对
B. 错

96. 大数据起源于金融行业。

A. 对
B. 错

97. 可视化是大数据分析的根本目的。

A. 对
B. 错

98. 网络公司能够捕捉到用户在其网站上的所有行为,并进行数据分析及挖掘。

A. 对
B. 错

99. BIRCH是一种分类和回归算法。

A. 对
B. 错

100. 分类是预测数据对象的离散类别。

A. 对
B. 错