推广 热搜: page  音视频  使用  选择  搜索引擎  百度  企业  可以  个数  父亲 

大数据组件:收集、存储、处理和分析大规模数据集

   日期:2024-12-17     作者:3ijyn    caijiyuan   评论:0    移动:http://ww.kub2b.com/mobile/news/6014.html
核心提示:⼤数据技术 ⼤数据技术数据处理和分析 数据处理和分析 ⼤数据技术 ⼤数据技术数据处理和分析 数据处理和分析 场景:数据清洗,数

大数据组件:收集、存储、处理和分析大规模数据集

⼤数据技术 ⼤数据技术——数据处理分析 数据处理分析 ⼤数据技术 ⼤数据技术——数据处理分析 数据处理分析 场景:数据清洗,数据规范化,统计分析等。 1. 实时处理 实时处理 对于实时数据及时处理,并输出结果。 推荐技术: SPARK STEAMING:⼀⼩段时间的批数据进⾏处理并产出。⽀持交互查询, STROM:纯实时处理,来⼀条处理⼀条。低延时,⾼容错性。 对于这两个技术,也是针对于应⽤场景的,假如不能忍受⾼延时且不需要复杂的交互查询则⽤STROM,否则⼀般⽤SPARK STREAMING。 2. 离线处理 离线处理 对于离线批数据的处理。 推荐技术: HIVE:类SQL的语法,SQL ON MAPREDUCE, 低开发成本。也可以⽤JAVA写UDF。 MAPREDUCE:JAVA编写MAP程序,REDUCE程序 SPARK:SCALA或者PYTHON开发,也⽀持SQL。 HIVE与MAPREDUCE的⽐较: HIVE提交的SQL会转化成MAPREDUCE的任务去执⾏。 HIVE的开发成本不⾼,优先⽤SQL解决问题。否则需要写UDF或者选择MAPREDUCE来解决问题。 HIVE和SPARK的⽐较: 本质上,SPARK计算引擎⽐MAPREDUCE计算引擎⾼效得多。 但SPARK是基于内存的分布式计算,数据⼤⼩最好不超过集群资源内存总量太多。否则变得⾮常低效。 以上推荐的技术是⾏业内常⽤的技术。但不唯⼀。
本文地址:http://ww.kub2b.com/news/6014.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号