
⼤数据技术 ⼤数据技术——数据
处理和
分析 数据
处理和
分析 ⼤数据技术 ⼤数据技术——数据
处理和
分析 数据
处理和
分析 场景:数据清洗,数据规范化,统计
分析等。 1. 实时
处理 实时
处理 对于实时数据及时
处理,并输出结果。 推荐技术: SPARK STEAMING:⼀⼩段时间的批数据进⾏
处理并产出。⽀持交互查询, STROM:纯实时
处理,来⼀条
处理⼀条。低延时,⾼容错性。 对于这两个技术,也是针对于应⽤场景的,假如不能忍受⾼延时且不需要复杂的交互查询则⽤STROM,否则⼀般⽤SPARK STREAMING。 2. 离线
处理 离线
处理 对于离线批数据的
处理。 推荐技术: HIVE:类SQL的语法,SQL ON MAPREDUCE, 低开发成本。也可以⽤JAVA写UDF。 MAPREDUCE:JAVA编写MAP程序,REDUCE程序 SPARK:SCALA或者PYTHON开发,也⽀持SQL。 HIVE与MAPREDUCE的⽐较: HIVE提交的SQL会转化成MAPREDUCE的任务去执⾏。 HIVE的开发成本不⾼,优先⽤SQL解决问题。否则需要写UDF或者选择MAPREDUCE来解决问题。 HIVE和SPARK的⽐较: 本质上,SPARK计算引擎⽐MAPREDUCE计算引擎⾼效得多。 但SPARK是基于内存的分布式计算,数据⼤⼩最好不超过集群资源内存总量太多。否则变得⾮常低效。 以上推荐的技术是⾏业内常⽤的技术。但不唯⼀。