推广 热搜: page  使用  音视频  个数  选择  搜索引擎  企业  百度  可以  父亲 

第80课:Spark SQL网站搜索综合案例实战

   日期:2024-12-16     作者:nllvp    caijiyuan   评论:0    移动:http://ww.kub2b.com/mobile/news/5058.html
核心提示:内容:     1.案例分析     2.案例实战 一、案例分析    项目:以京东找出搜索平台排名的产品,The

内容

    1.案例分析
    2.案例实战

一、案例分析


    项目:以京东找出搜索平台排名的产品,The hottest
    元数据:date,userID,item,city,device
    总体思路:混合使用Spark SQL和Spark Core的内容
        第一步:原始的ETL,过滤数据后产生目标数据,实际企业中可能过滤条件非常复杂(进行广播,使用RDD的filter等进行操作
        第二步:过滤后的目标数据进行指定条件的查询,查询条件也可能非常复杂(进行广播,使用RDD的filter算子
        第三步:由于商品是分为种类的,我们在得出最终的结果之前,首先会基于商品进行UV(当然也可以对用户的商品的访问PV,此时要对商品镜像UV=计算的话,必须构建K-V的 RDD,例如构建过程为为(dateItem,UserID)以方便进行groupByKey,在调用了的groupByKey之后对user进行去重,并计算出每一天每一种商品的UV,最终计算出来的的结果的数据类型
        第四步:使用开窗函数row_number统计出每日商品UV前五名的内容,row_number)OVER (PARTITION BY  date ORDER BY UV DESC) rank,此时会产生以date为日期、item、uv为Row的dataframe
        第五步:Dataframe转换成RDD,根据日期进行分组并分析出弥天排名为前5的热搜item
        第六步:进行Key-Values交换,然后调用sortByKey进行点击热度排名
        第七步:再次进行Key-Value交换,得出目标数据为(data#item,UV)的格式
        第八步:通过RDD直接操作MYSQL等把结果放入生成系统中的DB中,通过Java EE等Server技术进行可视化以提供市场营销人员、仓库调度系统、快递系统、仓库决策人员吃用数据创造价值
            当然也可以放在Hive中,Java EE等技术通过JDBC等链接访问Hive
            当然也可以放在Spark SQL中,通过Thrift技术通过Java EE使用等
            当然,如果像双十一等时候,一般首选放在Redis中,这样可以实现类似秒杀系统的响应速度

二、代码案例

    1.生成日志的代码示例


    2.日志案例

本文地址:http://ww.kub2b.com/news/5058.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号