19秋学期(1709、1803、1809、1903、1909)《大数据导论》在线作业-0001试卷总分:100得分:0一、单选题(共15道试题,共30分)1.医疗健康数据的基本情况不包括以下哪项?A.诊疗数据B.个人健康管理数据C.公共安全数据D.健康档案数据2.数据仓库是随着时间变化的,下列不正确的是()A.数据仓库随时间变化不断增加新内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合3.大数据的特点不包含A.数据体量大B.价值密度高C.处理速度快D.数据不统一4.哪个选项不属于大数据4V特点?A.VolumeB.ValidC.VarietyD.Value5.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段()。A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段6.下面哪一项不是中国发展大数据产业的基础()。A.信息化积累了丰富的数据资源B.大数据技术创新取得明显突破C.大数据应用推动势头良好D.大数据产业支撑薄弱7.基础设施即服务的英文简称是A.IaaSB.PaaSC.SaaS8.下列哪个R语言扩展包可以创建带有点和边的网络图()A.ggplot2B.networkC.ggmapsD.animation9.MapReduce中的Map和Reduce函数使用()进行输入输出A.key/value对B.随机数值C.其他计算结果10.大数据的最显著特征是()。A.数据规模大B.数据类型多样C.数据处理速度快D.数据价值密度高11.下列不属于Google云计算平台技术架构的是()A.并行数据处理MapReduceB.分布式锁ChubbyC.结构化数据表BigTableD.弹性云计算EC212.以下不是数据仓库基本特征的是()A.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的13.()是MicrosoftOffice的核心组件A.SQLB.WORDC.PPTD.EXCEL14.数据清洗的方法不包括A.缺失值处理B.噪声数据清除C.一致性检查D.重复数据记录处理15.DAS代表的意思是()A.两个异步存储B.数据归档软件C.连接一个可选的存储D.直连存储二、多选题(共15道试题,共30分)1.大数据智能感知层:主要包括()及软硬件资源接入系统A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系2.层次方法可以分为()A.K均值算法B.K中心点算法C.凝聚法D.分裂法3.以下可以用于数据可视化的是()。A.R语言B.ExcelC.RapidMinerD.Weka4.社会信号数据的特点有()A.规模大B.空间覆盖率广C.监测时间长D.实时性5.大数据在医疗中的应用有()A.流行性疾病预防B.慢性病健康管理C.临床决策支持D.医疗器械研发6.对于数值属性,我们使用()来评估一个属性的值如何随另一个属性变化。A.欧式距离B.相关系数C.协方差7.数据变换的常用方法有##,##,##,##A.中心化变换B.极差规格化变换C.标准化变换D.对数变换8.数据清洗(DataCleaning)的方法有()A.填充空缺值B.清除数据中的噪声C.识别或删除离群点并解决不一致性9.数据处理的两种方法是##,##A.批处理B.流处理C.单个处理D.交叉处理10.最常用的方式是企业自己搜集自己生产系统所产生的数据,除生产系统的数据外,企业的信息系统还充斥着大量的()等。A.用户行为数据B.日志式的活动数据C.事件信息11.去除噪声使得数据光滑的技术主要有:A.分箱B.回归C.离群点分析12.常见的非结构化数据有()A.web网页B.即时消息C.富文本文档D.实时多媒体数据13.下列属于传统统计学展示方法的是()A.柱状图B.饼状图C.曲线图D.网络图14.可使用##,##,##进行光滑。A.最大值B.箱中位数C.箱边界D.箱均值15.网络数据采集常用的是通过##或##等方式从网站上获取数据信息。A.网络爬虫B.网站公开APIC.手动获取三、判断题(共20道试题,共40分)1.分类是在给定数据基础上构建分类函数或分类模型,将数据划分到预定义的目标类中的某一种类别。A.对B.错2.规则性分析(PrescriptiveAnalysis)用于解决决策制定和提高分析效率A.对B.错3.原始交通数据记录是离散样本点而且可能不能映射到城市的道路网络中。A.对B.错4.广播变量在广播后可以修改A.对B.错5.FP-growth算法需要对数据库进行3次扫描A.对B.错6.数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。A.对B.错7.IDC给出的大数据定义是...