gaojingsong的博客 -凯发k8国际

`
gaojingsong
  • 浏览: 1124910 次
  • 性别:
  • 来自: 深圳
博主相关
  • 博客
  • 微博
  • 相册
  • 收藏
  • 文章分类
    社区版块
    • ( 4)
    • ( 0)
    • ( 80)
    存档分类
    最新评论
    文章列表
    在使用spark-submit提交spark任务一般有以下参数:   ./bin/spark-submit \   --class \   --master \   --deploy-mode \   --conf = \   ... # other options   \   [applic ...
    package cn.com.sparkdemo.myspark;   import java.util.arrays;   import org.apache.spark.sparkconf; import org.apache.spark.api.java.function.flatmapfunction; import org.apache.spark.api.java.function.function2; import org.apache.spark.api.java.function.pairfunction; import org.apache.spark.st ...
    spark支持4种运行模式:   本地单机模式 本地单机模式下,所有的spark进程均运行于同一个jvm中,并行处理则通过多线程来实现。在默认情况下,单机模式启动与本地系统的cpu核心数目相同的线程。如果要设置并行的级别,则以local[n]的格式来指定一个master变量,n表示要使用的线程数目。   集群单机模式 spark集群由两类程序构成:一个驱动程序和多个执行程序。本地模式时所有的处理都运行在同一个jvm内,在集群模式时通常运行在多个不同的节点上。 集群单机模式通常包括: 1、一个运行spark单机主进程和启动程序的主节点; 2、各自运行一个执行程序的进程的工作节点 ...
     
    一、单词统计源码 package cn.com.sparkdemo.myspark;   import java.util.arrays; import java.util.list;   import org.apache.spark.sparkconf; import org.apache.spark.api.java.javardd; import org.apache.spark.api.java.javasparkcontext; import org.apache.spark.sparkconf;   import org.apache.spark.api.j ...
    spark streaming is an extension of the core spark api that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. data can be ingested from many sources like kafka, flume, kinesis, or tcp sockets, and can be processed using complex algorithms expressed with high-le ...
    1、安装scala #解压scala-2.10.5.tgz tar -zxvf scala-2.10.5.tgz #配置scala_home vi /etc/profile #添加如下环境 export scala_home=/home/apps/scala-2.10.5 export path=.:$scala_home/bin:$path #测试scala安装是否成功 #直接输入 scala 2、安装 #解压spark-1.3.1-bin-hadoop2.6.tgz tar -zxvf spark-1.3.1-bin-hadoop2.6.tgz #配置sp ...
    apache spark™ is a fast and general engine for large-scale data processing. spark是uc berkeley amp lab所开源的类hadoop mapreduce的通用并行框架,spark,拥有hadoop mapreduce所具有的优点;但不同于mapreduce的是job中间输出结果可以保存在内存中,从而不再需要读写hdfs,因此spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。     spark 是一种与 hadoop 相似的开源集群计算环境,但是两者之间还存在一些不 ...
    global site tag (gtag.js) - google analytics
    网站地图