gaojingsong
- 浏览: 1124910 次
- 性别:
- 来自: 深圳
社区版块
- ( 4)
- ( 0)
- ( 80)
最新评论
-
gaojingsong:
jstl1point0 写道高级版本jdk可以直接安装不用配置 ...
【win7配置jdk 环境变量】 -
jstl1point0:
高级版本jdk可以直接安装不用配置了
【win7配置jdk 环境变量】 -
hdd901002:
光说明错误在哪里有什么用,解决方法啊。。。我也碰到了,一条jo ...
mycat源码解读--错误之【can't find table define in schema 】 -
masuweng:
【java之图片水印】 -
masuweng:
【java之多线程下载文件实现】
文章列表
- 博客分类:
- 大数据--spark
在使用spark-submit提交spark任务一般有以下参数:
./bin/spark-submit \
--class \
--master \
--deploy-mode \
--conf = \
... # other options
\
[applic ...
- 2017-12-27 20:39
- 浏览 566
- 分类:开源软件
- 博客分类:
- 大数据--spark
package cn.com.sparkdemo.myspark;
import java.util.arrays;
import org.apache.spark.sparkconf;
import org.apache.spark.api.java.function.flatmapfunction;
import org.apache.spark.api.java.function.function2;
import org.apache.spark.api.java.function.pairfunction;
import org.apache.spark.st ...
- 2017-02-18 19:46
- 浏览 1370
- 分类:编程语言
- 博客分类:
- 大数据--spark
spark支持4种运行模式:
本地单机模式
本地单机模式下,所有的spark进程均运行于同一个jvm中,并行处理则通过多线程来实现。在默认情况下,单机模式启动与本地系统的cpu核心数目相同的线程。如果要设置并行的级别,则以local[n]的格式来指定一个master变量,n表示要使用的线程数目。
集群单机模式
spark集群由两类程序构成:一个驱动程序和多个执行程序。本地模式时所有的处理都运行在同一个jvm内,在集群模式时通常运行在多个不同的节点上。
集群单机模式通常包括:
1、一个运行spark单机主进程和启动程序的主节点;
2、各自运行一个执行程序的进程的工作节点 ...
- 2017-02-18 19:19
- 浏览 647
- 分类:开源软件
- 博客分类:
- 大数据--spark
一、单词统计源码
package cn.com.sparkdemo.myspark;
import java.util.arrays;
import java.util.list;
import org.apache.spark.sparkconf;
import org.apache.spark.api.java.javardd;
import org.apache.spark.api.java.javasparkcontext;
import org.apache.spark.sparkconf;
import org.apache.spark.api.j ...
- 2017-02-17 20:14
- 浏览 1091
- 分类:编程语言
- 博客分类:
- 大数据--spark
spark streaming is an extension of the core spark api that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. data can be ingested from many sources like kafka, flume, kinesis, or tcp sockets, and can be processed using complex algorithms expressed with high-le ...
- 2016-12-26 22:34
- 浏览 672
- 分类:开源软件
- 博客分类:
- 大数据--spark
1、安装scala
#解压scala-2.10.5.tgz
tar -zxvf scala-2.10.5.tgz
#配置scala_home
vi /etc/profile
#添加如下环境
export scala_home=/home/apps/scala-2.10.5
export path=.:$scala_home/bin:$path
#测试scala安装是否成功
#直接输入
scala
2、安装
#解压spark-1.3.1-bin-hadoop2.6.tgz
tar -zxvf spark-1.3.1-bin-hadoop2.6.tgz
#配置sp ...
- 2016-05-21 22:37
- 浏览 916
- 分类:编程语言
- 博客分类:
- 大数据--spark
apache spark™ is a fast and general engine for large-scale data processing.
spark是uc berkeley amp lab所开源的类hadoop mapreduce的通用并行框架,spark,拥有hadoop mapreduce所具有的优点;但不同于mapreduce的是job中间输出结果可以保存在内存中,从而不再需要读写hdfs,因此spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。
spark 是一种与 hadoop 相似的开源集群计算环境,但是两者之间还存在一些不 ...
- 2016-05-20 21:24
- 浏览 1145
- 分类:编程语言