A.复杂的批量数据处理:MapReduce
B.基于历史数据的交互式查询:Impala
C.基于实时数据流的数据处理:Storm
D.图结构数据的计算:Hive
A.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
B.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
C.前者相比后者学习起来更难
D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型
A.Pig:处理大规模数据的脚本语言
B.Tez:支持DAG作业的计算框架
C.Oozie:工作流和协作服务引擎
D.Kafka:分布式发布订阅消息系统
A.MapReduce
B.HDFS
C.Flash
D.CloudComputing
A.数据在哪,计算在哪
B.开发者从key/value角度考虑任务执行
C.开发者并非从key/value角度考虑任务执行
D.进程协调,系统自身能检测到失败的任务;让正常机器重新执行失败的任务