北京快三开奖

  • <tr id="U9YkSO"><strong id="U9YkSO"></strong><small id="U9YkSO"></small><button id="U9YkSO"></button><li id="U9YkSO"><noscript id="U9YkSO"><big id="U9YkSO"></big><dt id="U9YkSO"></dt></noscript></li></tr><ol id="U9YkSO"><option id="U9YkSO"><table id="U9YkSO"><blockquote id="U9YkSO"><tbody id="U9YkSO"></tbody></blockquote></table></option></ol><u id="U9YkSO"></u><kbd id="U9YkSO"><kbd id="U9YkSO"></kbd></kbd>

    <code id="U9YkSO"><strong id="U9YkSO"></strong></code>

    <fieldset id="U9YkSO"></fieldset>
          <span id="U9YkSO"></span>

              <ins id="U9YkSO"></ins>
              <acronym id="U9YkSO"><em id="U9YkSO"></em><td id="U9YkSO"><div id="U9YkSO"></div></td></acronym><address id="U9YkSO"><big id="U9YkSO"><big id="U9YkSO"></big><legend id="U9YkSO"></legend></big></address>

              <i id="U9YkSO"><div id="U9YkSO"><ins id="U9YkSO"></ins></div></i>
              <i id="U9YkSO"></i>
            1. <dl id="U9YkSO"></dl>
              1. <blockquote id="U9YkSO"><q id="U9YkSO"><noscript id="U9YkSO"></noscript><dt id="U9YkSO"></dt></q></blockquote><noframes id="U9YkSO"><i id="U9YkSO"></i>
                企业空间 推销商城 存储论坛
                北京快三开奖全闪存阵列 IBM云盘算 Acronis 安克诺斯 安腾普 腾保数据
                首页 > 大数据 > 注释

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                2019-08-22 15:40泉源:中国存储网
                导读:XSKY开辟了基于工具存储XEOS的公用Hadoop HDFS高功能客户端XSKY HDFS Client。

                随着环球数据呈迸发式增长,基于海量数据的发掘和剖析,为用户带来了宏大的贸易代价。源于开源平台的Apache Hadoop,容许运用复杂的编程模子跨盘算机集群散布式处置大型数据集,成为大数据期间最受欢送的技能之一。

                01功能瓶颈

                HDFS散布式文件零碎作为Hadoop的三大组件之一,是散布式盘算中数据存储办理的根底。但是在HDFS传统架构下,Hadoop扩展性遭到了肯定限定,容易呈现功能瓶颈等题目。

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                图片泉源:Hadoop官方文档

                比方,由于HDFS中每个文件、目次和数据块的元数据信息(约莫150字节)必需存储在NameNode的内存中,这也就意味着关于一个拥有少量文件的超大集群来说,内存将成为限定零碎横向扩展的瓶颈。

                同时,作为一个可扩展的文件零碎,单个集群中支持数千个节点。在单个定名空间中DataNode可以扩展的很好,但是NameNode并不克不及在单个定名空间停止横向扩展。通常状况下,HDFS集群的功能瓶颈呈现在单个NameNode上。

                固然,在Hadoop 2.x刊行版中引入了联邦HDFS功用,容许零碎经过添加多个NameNode来完成扩展。但是,零碎办理员需求维护多个NameNodes和负载平衡效劳,这又有形中添加了办理本钱。

                别的,大数据平台建立和使用中还亟待处理以下题目:

                ▪ 在传统的Apache Hadoop集群零碎中,盘算和存储资源严密耦合。当存储空间或盘算资源缺乏时,只能同时对两者停止扩容,不只扩容不方便,且经济服从较低;

                ▪ Hadoop的数据备份方案昂贵,且难以完成;

                ▪ 差别部分、平台各自建大数据零碎,数据不共享,招致大数据盘算平台碎片化,逐步构成大数据烟囱。

                02XSKY HDFS Client

                为理解决上述题目,业界普通接纳工具存储来作为Hadoop的后端存储,处理下面HDFS的种种题目,构建数据湖处理方案。

                Hadoop社区也开辟了S3A衔接器,用来对接规范的S3工具存储。但是,规范的S3A衔接器的功能普通比HDFS要差许多,并且不支持追加写,因而只能支持局部对功能不高的业务,或许作为Hadoop分层存储运用。

                为此,XSKY开辟了基于工具存储XEOS的公用Hadoop HDFS高功能客户端XSKY HDFS Client。

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                XSKY HDFS Client和S3A架构比照

                经过XSKY HDFS Client,Hadoop使用可以拜访存储在XEOS中的一切数据,这就防止了传统的Hadoop使用在停止数据剖析前,还要将数据由业务存储挪动到剖析存储HDFS中。

                XSKY HDFS Client为Hadoop使用提供了规范的 Hadoop 文件零碎操纵接口。在每个盘算节点上,Hadoop使用都将运用XSKY HDFS Client (JAR) 实行 Hadoop文件零碎的操纵,XSKY HDFS Client屏蔽了Hadoop使用与XEOS集群交互的庞大性。

                相比于原生Hadoop S3A对接工具存储的方法,XSKY HDFS Client可以间接拜访存储集群的OSD,IO途径更短;同时,XSKY HDFS Client具有追加写的功用,可以婚配Hadoop文件零碎对追加写的需求。

                XSKY外部对在业界最普遍使用的Hadoop贸易刊行版本之一Cloudera CDH的TestDFSIO测试中表现,摆设了XSKY HDFS Client的 XEOS集群写功能超越接纳Remote HDFS零碎的94%,读功能超越77%(两种测试硬件设置装备摆设一样,节点数都是8节点,此中存储和Datanode都是3节点)。

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                WordCount测试中,功能瓶颈次要在CDH盘算集群的CPU运用率,两组测试情况盘算集群的CPU均到达了100%。HDFS对1TB数据停止WordCount盘算的工夫耗费为46分22秒,而XEOS的工夫耗费为47分20秒,相差不大。

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                HBase写测试中,HDFS对30,000,000条数据停止写入工夫耗费为2分23秒,而XEOS的工夫耗费为2分55秒,与HDFS比相差30秒左右。但是从HBase统计的IOPS来看,HDFS和XEOS相差不大。

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                HBase读测试,HDFS对30,000,000条数据停止读取工夫耗费为47秒,而XEOS的工夫耗费为46秒,简直没有差异。但是从HBase统计的IOPS来看, XEOS分明高于HDFS。

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                XSKY打造Hadoop HDFS高功能客户端,修筑数据湖抱负底座

                03客户收益

                ▪ 盘算存储别离摆设,按需扩容,大幅低落TCO;

                ▪ 愈加优化的功能,以及企业级存储特性;

                ▪ 实用于大数据平台的容灾备份;

                ▪ 同时支持消费业务、Hadoop、MPP、AI等盘算业务,处理数据孤岛题目;

                ▪ 一套存储零碎,承载多个异构平台的数据整合,减速数据活动;

                ▪ NFS、HDFS、S3三种协议互通,三种协议泉源的数据都可以一致停止in-place剖析,剖析后果可以经过S3及时公布。

                XSKY现在曾经完成块、文件、工具、HDFS支持,为企业用户构建了真正一致的数据存储平台,可完成用户从中心消费到海量数据剖析的最大化数据整合,助力修筑企业数据湖抱负底座!

                持续阅读
                要害词 :
                XSKY Hadoop 数据湖
                中国存储网声明:此文观念不代表本站态度,若有版权疑问请联络我们。
                相干阅读
                产物引荐
                头条阅读
                栏目热门

                Copyright @ 2006-2019 ChinaStor.COM 版权一切 京ICP备14047533号

                中国存储网

                存储第一站,存储流派,存储在线交换平台