gaojingsong的博客 -凯发k8国际

`
gaojingsong
  • 浏览: 1124910 次
  • 性别:
  • 来自: 深圳
博主相关
  • 博客
  • 微博
  • 相册
  • 收藏
  • 文章分类
    社区版块
    • ( 4)
    • ( 0)
    • ( 80)
    存档分类
    最新评论
    文章列表
    hadoop中的namenode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个namenode。如果该namenode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现。hadoop2就解决了这个问题。     hadoop2.2.0中hdfs的高可靠指的是可以同时启动2个namenode。其中一个处于工作状态,另一个处于随时待命状态。这样,当一个namenode所在的服务器宕机时,可以在数据不丢失的情况下,手工或者自动切换到另一个namenode提供服务。   这些namenode之间通过共享数据 ...
      原来的 map-reduce 架构是简单明了的,在最初推出的几年,也得到了众多的成功案例,获得业界广泛的支持和肯定,但随着分布式系统集群的规模和其工作负荷的增长,原框架的问题逐渐浮出水面,主要的问题集中如下: 1)jobt ...
    在一个典型的ha集群中,每个namenode是一台独立的服务器。在任一时刻,只有一个namenode处于active状态,另一个处于standby状态。其中,active状态的namenode负责所有的客户端操作,standby状态的namenode处于从属地位,维护着数据状态,随时准备切换。  两个namenode为了数据同步,会通过一组称作journalnodes的独立进程进行相互通信。当active状态的namenode的命名空间有任何修改时,会告知大部分的journalnodes进程。standby状态的namenode有能力读取jns中的变更信息,并且一直监控edit log的变 ...
    江湖传说永流传:谷歌技术有"三宝",gfs、mapreduce和大表(bigtable)! 谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年sosp的gfs,04年osdi的mapreduce,和06年osdi的bigtable    一、mapreduce运行机制     mapredu ...
    1、mapreduce mapreduce是一种编程模型,用于大规模数据集(大于1tb)的并行运算。概念"map(映射)"和"reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它� ...
    hadoop文件操作之hdfs,创建。删除目录,读写文件,追加写文件   package hadoop.hadoop_demo;import java.io.inputstream;import java.io.outputstream;import java.net.uri;import org.apache.commons.io.ioutils;import org.apache.hadoop.conf.configuration;import org.apache.hadoop.fs.filesystem;import org.apache.hadoop.fs.path;/** * ...
    1、进程差异 新版本hadoopsecondarynamenode  nodemanager   namenode  datanode  resourcemanager 旧版本hadoop secondarynamenode,jobtracker,namenode,datanode,trasktracker五个进程   安装新版本haddop注意事项,安装过程同hadoop低版本 loaded: ssh: could not resolve hostname loaded: name or service not knownit's: ssh: could not resolve ...
    java代码操作hdfs文件   /** org.apache.hadoop hadoop-core 1.2.1       * @param args * @throws exception  */ public static void main(string[] args) throws e ...
    想象一下这种场景:我们使用1000台廉价的pc机做hadoop集群,虽然hadoop号称高可用,低成本;但是廉价机器谁能保证不出现问题呢,况且世界上本身就没有不出问题的电脑,于是今天坏掉一台机器,明天需要扩充增加一个节点增加容量,但是有一个问题ssh免密码登录的认证的公钥文件在各个电脑上不能共享,如果增加一个节点,新产生的id_rsa.pub  文件在各个pc的authorized_keys文件中不存在,因此各个pc拒绝新节点来访问自己,因为新节点没有报到,此时管理员疯了:要把新节点的id_rsa.pub 文件加入到各个pc的authorized_keys中,管理员的噩梦了......... ...
     概述:分布式核心思想是人多力量大,众人拾材火焰高;把众多计算机集中起来进行任务处理,其存储和运算能力就提高了,可以并行运算,但是众多pc维护管理也是一个问题,所谓众口难调,这就是鱼和熊掌不可兼得的道理,只能两害相侵,取其轻,来进行利益最大化处理。本次实验使用三台虚拟机:master,node1,node2,其中master作为namenode,senondnamenode,以及jobtracker,另外两个几点作为datanode和tasktracker,具体搭建过程如下:1、配置host文件(或者使用dns服务器)       修改/etc/hosts文件       ip地址 ...
    1、关闭防火墙 service iptables status service iptables stop chkconfig --list chkconfig iptables off 2、ssh 免密码登录 生成秘钥到root目录 ssh-keygen -t rsa 公钥文件放入authorized_keys cp id_rsa.pub authorized_keys 验证:ssh localhost 3、安装jdk 配置etc/profile jdk环境变量 4、开始安装hadoop 1)解压,配置hadoop环境变量bin hadoop_home path: hadoop ...
    global site tag (gtag.js) - google analytics
    网站地图