博客专栏 -凯发k8国际

证道hadoop

散仙结合个人的学习经历,愿意与大家分享学习hadoop的路程,希望能帮到更多有志之士,一起学习,一起进步。 hadoop探讨交流群:376932160

分享到:

最近更新文章

有时候,我们使用hadoop处理数据时,在reduce阶段,我们可能想对每一个输出的key进行单独输出一个目录或文件,这样方便数据分析,比如根据某个时间段对日志文件进行时间段归类等等。这时候我们就可以使用multipleoutputs类,来搞定这件事, 下面,先来看下散仙的测试数据: 中国;我们 美国;他们 中国;123 中国人;善良 美国;usa 美国;在北美洲 输出结果:预期输出结 ...
qindongliang1922 有8385人浏览 2014-04-10 19:07
hadoop里面的mapreduce编程模型,非常灵活,大部分环节我们都可以重写它的api,来灵活定制我们自己的一些特殊需求。 今天散仙要说的这个分区函数partitioner,也是一样如此,下面我们先来看下partitioner的作用: 对map端输出的数据key作一个散列,使数据能够均匀分布在各个reduce上进行后续操作,避免产生热点区。 hadoop默认使用的分区函数是hash parti ...
qindongliang1922 有6376人浏览 2014-04-10 17:12
filesplit:文件的子集--文件分割体 简介:   这篇文档描述在hadoop中map和reduce操作是怎样具体完成的。如果你对google的mapreduce各式模式不熟悉,请先参阅map ...
qindongliang1922 有2755人浏览 2014-04-09 18:37
distributedcache是hadoop的一个分布式文件缓存类,使用它有时候能完成一些比较方便的事,distributedcache第一个比较方便的作用就是来完成分布式文件共享这件事,第二个比较有用的场景,就是在执行一些join操作时,将小表放入cache中,来提高连接效率。 那么,散仙今天要介绍的是如何使用distributedcache来共享全局的缓存文件。 下面我们先通过一个表格来 ...
qindongliang1922 有7321人浏览 2014-03-28 20:54
用hadoop也算有一段时间了,一直没有注意过hadoop运行过程中,产生的数据日志,比如说system打印的日志,或者是log4j,slf4j等记录的日志,存放在哪里,日志信息的重要性,在这里散仙就不用多说了,调试任何程序基本上都得需要分析日志。 hadoop的日志主要是mapreduce程序,运行过程中,产生的一些数据日志,除了系统的日志外,还包含一些我们自己在测试时候,或者线上环境输出的日志 ...
qindongliang1922 有13058人浏览 2014-03-28 20:05
在我们的一些应用程序中,常常避免不了要与数据库进行交互,而在我们的hadoop中,有时候也需要和数据库进行交互,比如说,数据分析的结果存入数据库,或者是,读取数据库的信息写入hdfs上,不过直接使用mapreduce操作数据库,这种情况在现实开发还是比较少,一般我们会采用sqoop来进行数据的迁入,迁出,使用hive分析数据集,大多数情况下,直接使用hadoop访问关系型数据库,可能产生比较大的数据 ...
qindongliang1922 有2449人浏览 2014-03-26 20:33
使用eclipse来调试hadoop作业是非常简洁方便的,散仙以前也有用eclipse开发过hadoop程序,但是一直没有深入了解eclipse调试的一些模式,有些时候也会出一些莫名奇妙的异常,最常见的就是下面这个 java.lang.runtimeexception: java.lang.classnotfoundexception: com.qin.sort.testsort$smapper ...
qindongliang1922 有5221人浏览 2014-03-25 19:47
散仙,在上篇文章中,简述了sqoop的的功能,作用,以及版本演进,那么本篇我们就来实战下,看下如下安装使用sqoop(注:散仙在这里部署的是sqoop1的环境搭建)。 首先,sqoop是基于hadoop工作的,所以在这之前,确保你的linux环境下,已经有可以正常工作的hadoop集群,当然伪分布式和完全分布式都可以。 其次,我们得下载一个sqoop的安全包,散仙在这里使用的是sqoop1, ...
 
qindongliang1922 有3459人浏览 2013-12-29 23:24
首先,先简单说明下sqoop是什么,sqoop 即 sql to hadoop ,是一款方便的在传统型数据库与hadoop之间进行数据迁移的工具,充分利用mapreduce并行特点以批处理� ...
 
qindongliang1922 有5038人浏览 2013-12-29 22:07
hadoop2.x之后,已经发布了稳定的版本hadoop2.2.0.但是由于没有eclipse插件工具,辅助,开发调试相对起来,会稍显麻烦,特别是基于java开发的工程师们,虽然写完mr任务后,也可以采用打成jar包的方式,上传调试,但是这种方式,也有点繁琐,不过网上也好像有一些,使用程序能够自动打包任务的程序,散仙没具体用过,在这里,就不多涉及了,有知道的朋友们,欢迎分享。 下面开始进入正题, ...
qindongliang1922 有8039人浏览 2013-12-17 13:12
hdfs是hadoop生态系统的根基,也是hadoop生态系统中的重要一员,大部分时候,我们都会使用linux shell命令来管理hdfs,包括一些文件的创建,删除,修改,上传等等,因为使用shell命令操作hdfs的方式,相对比较简单,方便,但是有时候,我们也需要通过编程的方式来实现对文件系统的管理。 比如有如下的一个小需求,要求我们实现读取hdfs某个文件夹下所有日志,经过加工处理后在写入 ...
qindongliang1922 有12259人浏览 2013-11-27 20:35
不得不说,hadoop确实是处理海量离线数据的利器,当然,凡是一个东西有优点必定也有缺点,hadoop的缺点也很多,比如对流式计算,实时计算,dag具有依赖关系的计算,支持都不友好,所以,由此诞生了很多新的分布式计算框架,storm,spark,tez,impala,drill,等等,他们都是针对特定问题提出一种凯发k8国际娱乐官网入口的解决方案,新框架的的兴起,并不意味者他们就可以替代hadoop,一手独大,hdfs和ma ...
qindongliang1922 有9487人浏览 2013-11-13 17:54
虽然使用java编写mapreduce作业有点繁琐,但是对于刚入门hadoop的新手来说,有利于理解hadoop的一些底层实现,这无疑也是一种巨大的收获。目前大部分的mapreduce作业都是使用hive,pig完成的,当然也有用其他语言实现的,通过使用hadoopstreaming的方式,用原生java写mr作业的只有很少一部分。在hadoop2.x中,已经不支持eclipse的插件了,不过可以在 ...
qindongliang1922 有7504人浏览 2013-11-07 16:11
在hadoop1.2.x的版本中,直接运行自带的wordcount的例子会报异常,这个原因是因为它路径的问题,所以,想要正常运行自带的例子,我们还是需要做一些准备工作的,当然你可以直接在eclipse中修改它的源码然后重新编译,再运行,这样一来比较麻烦,特别是对一些刚学习的朋友来说,在eclipse配置个hadoop也许都得折腾半天,所以本篇,散仙会介绍使用shell命令的改变它的编译路径,并重新打 ...
qindongliang1922 有2616人浏览 2013-11-04 19:07
资源调度器是hadoop集群中一个比较重要的模块,最初的hadoop资源调度器是基于队列形式的fifo调度的,这种模式在大规模集群的时候,资源分配并不是很� ...
qindongliang1922 有4676人浏览 2013-10-31 17:32
散仙上篇博客,介绍了hadoop基于单机模式下的伪分布式的部署,那么今天我们来看下hadoop完全分布式的部署,其实只要伪分布式部署的会了,那么完全分布式的相对来说就很简单了,只要我们在一台机器上部署好,然后远程拷贝给其他的子节点就可以了。 散仙用的是centos6.4的版本,hadoop1.2.1的版本,其他的一些linux系统都是大同小异,关于ssh的配置及一些准备工作,在这里就不多说了,不会 ...
qindongliang1922 有5723人浏览 2013-10-25 18:55
基于yarn平台的hadoop2.2.0在前几天已经发布稳定版本了  新版本解决了1.x中的namenode,jobtracker单点故障问题,使用yarn统一了分布式开发的集群平台,给集� ...
qindongliang1922 有5371人浏览 2013-10-22 16:40
上一篇博客,散仙详细的描述了ssh的无验证登陆方式,但会发现命令流程还是有点复杂的,那么有没有一种简单,快捷的方式来搞定呢?答案是肯定的。 ...
qindongliang1922 有3286人浏览 2013-10-16 13:52
配置ssh无登陆验证,在很多场景下是非常方便的,尤其是在管理大型集群服务时,避免了繁琐的密码验证,在安全级别越高的服务器上,通常密码的设置更复杂,配置ssh,不仅可以用密钥保证节点间通信的安全性,同时也降低了频繁输入密码登陆的耗时,大大提高了管理效率。散仙写此篇文章,也是给准备入手hadoop的道友们先做好一个基础的准备,当然你也可以不配置ssh,只要你愿意频繁输入slave节点的密码来登陆。 ...
qindongliang1922 有7051人浏览 2013-10-15 17:39
hadoop日志系统中的日志收集模块,在如今比较流行的以及开源具有代表性的有facebook的scribe,apache的chukwa,linkedin的kafka,以及非常优秀的cloudrea的flume,在1.x的hadoop生态系统中,flume比较适合做日志收集模块,因为其功能全面,且具有高扩展性,高稳定性,高可靠性,以及便于管理和维护。 在1.xhadoop生态系统中,hdfs分布式 ...
qindongliang1922 有3883人浏览 2013-10-10 22:01
  • 专栏创建者:qindongliang1922
  • 创建时间:2014-04-10 10:40:16
  • 专栏文章数:20篇
  • 专栏被浏览:123957 次

本专栏热门文章

最新评论

之前看过你的文章觉得都还不错,这篇文章我认为实在太差了,有些语段根本就没说通也知道是转载还是原创的。毫 ...
the_small_base_ 评论了
如果指定的10个reduce,应该是随机的运行10个reduce任务
qindongliang1922 评论了
咨询一个问题,在wordcount这个例子解释中,每个reducer从100台节点上拿到属于自己分区的 ...
wwwwxiaoxiu 评论了
大神,你怎么设置的,local模式下能输出system.out.println的信息和log相关信息, ...
lifuxiangcaohui 评论了
nanjihuoyan 写道请教博主,我要编译的hadoop-2.3.0,报错信息如下build fa ...
qindongliang1922 评论了
请教博主,我要编译的hadoop-2.3.0,报错信息如下build failed/home/ubun ...
nanjihuoyan 评论了
import com.qin.operadb.personrecoder; import com.qi ...
zhanggl23456 评论了
langke93 写道有没有sqoop2的安装文档,我按照官方文档操作下来,启动job后提示:appl ...
shankses 评论了
aiyan3344 写道您好:如果 multipleoutputs.addnamedoutput(jo ...
qindongliang1922 评论了
您好:如果 multipleoutputs.addnamedoutput(job, "chi ...
aiyan3344 评论了
global site tag (gtag.js) - google analytics
网站地图