spark 抽样 -凯发k8国际

`
jickcai
  • 浏览: 235798 次
  • 性别:
  • 来自: 北京
博主相关
  • 博客
  • 微博
  • 相册
  • 收藏
  • 社区版块
    • ( 0)
    • ( 0)
    • ( 0)
    存档分类
    最新评论

    spark 抽样

      博客分类:
    • web

     use sessiondb;

     set num_sample = 30;
    create external table task_samples
    (
    date_str string,
    task_id string,
    review_type string,
    task_type string,
    score string,
    user_name string
    )
    row format delimited fields terminated by '\t'
    location "afs://dd.afs.baidu.com:9902/user/xx/sp-cbreview-task/samples/{date}";
     
    drop view if exists samples_data_db;
    create temporary view samples_data_db as
    select 
    date_str,task_id,review_type,task_type,score,user_name
    from
    (
    select 
    *,
    row_number() over (partition by user_name order by rand()) as `rnk`
    from
    task_samples
    )
    where
    rnk <= ${num_sample};
     
     
    insert overwrite directory "afs://tt.afs.baidu.com:9902/user/xx/sp-cbreview-task/samples-stat/{date}"
    row format delimited fields terminated by '\t'
    select 
    date_str,review_type,task_type,user_name,sum(pass_cnt) as pass_cnt,sum(un_pass_cnt) as un_pass_cnt , sum(samples_cnt) as samples_cnt
    from
    ( select 
    date_str,review_type,task_type,user_name,
    count(if(score="0", null, score)) as pass_cnt,
    count(if(score="1", null, score)) as un_pass_cnt,
    0 as samples_cnt
    from  task_samples
    group by date_str,review_type,task_type,user_name
    union
    select 
    date_str,review_type,task_type,user_name,0 as pass_cnt,0 as un_pass_cnt, count(*) as samples_cnt
    from samples_data_db
    group by date_str,review_type,task_type,user_name
    )b
    group by date_str,review_type,task_type,user_name
    order by user_name asc;

    分享到:
    评论

    相关推荐

      对于csiro谝整群抽样的环境定义文件中的可用env目录。 例如: source set-dev-env.sh env/bragg_1.8_1.1.0环境定义文件的目的是加载所需版本的 spark-hpc 依赖项,包括: openmpi jdk 火花maven3(仅用于开发)测试...

      并提出了分布式情况下梯度优化决策树模型实现的优化方法,包括切分点抽样、特征装箱和逐层训练三种,提高了分布式情况下梯度优化决策树训练效率。基于spark分布式计算平台高效、可靠、弹性可扩展的优势,以及梯度...

      使用 spark 解决大规模最小二乘问题的随机求解...抽样:首先使用随机投影来估计杠杆分数,然后使用它们来构建抽样草图 对于投影方法,有四种选择: cw:稀疏计数草图类似变换( ) gaussian:密集高斯变换 rademache

      基于spark.sql进行操作 创建临时表 创建临时视图 基于dataframe进行操作 了解表结构 查看数据 查看列名 持久化 列操作 列名称重命名 条件筛选 利用when做条件判断 利用between做多条件判断 in数据...

      全样⽽⾮抽样,以前采⽤统计学抽样⽅式(存储设备贵、存储数据少、cpu和技术能⼒不强、⽆法短时间迅速计算),⼤数 据时代有⾜够能⼒存储⾜够算例去计算。效率⽽⾮精确,不苛求精确度,全样数据不存在误差放⼤问题,...

      •具有加权随机抽样算法(python)的反向工程搜索日志。 •设计和实现的功能工程流水线,可生成功能以供查询理解和使用python的spark map reduce进行点击预测。 •通过spark map reduce生成的tf-idf数据。 技术栈 ...

      用于勘探的数据是从原始数据集中随机抽样的。 数据探索-评论数据集 cd data-exploration spark-submit reviews.py 5 10 reviewsexploration.txt 根据我们的抽样评论数据集: 从2004年到2018年,评论数量逐年增加 ...

      ⼤数据项⽬实训总结_⼤数据分析处理实践的⼀点⼼得 最近的项⽬中,需要...这个时候,可以采⽤抽样的⽅式先快速观察代码的输出,以提⾼调试效率。另外,尽可能减少不必要的输⼊数据,注意集群的⽇志输 出,也⾮常重要。

      整套大数据课程从hadoop入门开始,由浅入深,内置“hadoop源码解析与企业应用开发实战”,“hive开发实战”,“hbase开发实战”,“spark,mahout,sqoop,storm诸模块开发实战”,“数据挖掘基础。这个系列课程有几...

      选修课:数据科学算法导论、数据科学专题、数据科学实践、互联⺴实⽤开发技术、抽样技术、统计学习、回归分析、随 机过程。 另外学习⼤数据必须要学习⼤数据中⼼常识,⼤数据技术体系很复杂,与物联⺴、移动互联⺴...

      在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《⼤数据时代》中⼤数据指不⽤随机分析法(抽样调查)这样捷径,⽽采⽤所有数据进 ⾏分析处理。⼤数据的5v特点(ibm提出):volume(⼤量)、velocity(⾼速)、...

      在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5v特点(ibm提出):volume(大量)、velocity(高速)、...

      ⼤数据计算模式: ⼤数据计算 模式 解决问题 代表产品 批处理计算 针对⼤规模数据的批量处理 mapreduce、spark等 流计算 针对流数据的实时计算 storm、s4、flume、streams、puma、dstream、supermario、银河流 数据...

    global site tag (gtag.js) - google analytics
    网站地图