北京快三开奖

  • <tr id="U9YkSO"><strong id="U9YkSO"></strong><small id="U9YkSO"></small><button id="U9YkSO"></button><li id="U9YkSO"><noscript id="U9YkSO"><big id="U9YkSO"></big><dt id="U9YkSO"></dt></noscript></li></tr><ol id="U9YkSO"><option id="U9YkSO"><table id="U9YkSO"><blockquote id="U9YkSO"><tbody id="U9YkSO"></tbody></blockquote></table></option></ol><u id="U9YkSO"></u><kbd id="U9YkSO"><kbd id="U9YkSO"></kbd></kbd>

    <code id="U9YkSO"><strong id="U9YkSO"></strong></code>

    <fieldset id="U9YkSO"></fieldset>
          <span id="U9YkSO"></span>

              <ins id="U9YkSO"></ins>
              <acronym id="U9YkSO"><em id="U9YkSO"></em><td id="U9YkSO"><div id="U9YkSO"></div></td></acronym><address id="U9YkSO"><big id="U9YkSO"><big id="U9YkSO"></big><legend id="U9YkSO"></legend></big></address>

              <i id="U9YkSO"><div id="U9YkSO"><ins id="U9YkSO"></ins></div></i>
              <i id="U9YkSO"></i>
            1. <dl id="U9YkSO"></dl>
              1. <blockquote id="U9YkSO"><q id="U9YkSO"><noscript id="U9YkSO"></noscript><dt id="U9YkSO"></dt></q></blockquote><noframes id="U9YkSO"><i id="U9YkSO"></i>
                企业空间 推销商城 存储论坛
                北京快三开奖全闪存阵列 IBM云盘算 Acronis 安克诺斯 安腾普 腾保数据
                首页 > 大数据 > 注释

                剖析:亚马逊怎样经过数据湖处理大数据应战?

                2020-02-23 21:49泉源:SiliconANGLE
                导读:亚马逊面临大数据的应战与很多其他公司面对的应战类似:数据孤岛,剖析种种数据集的难度,数据控制器才能,数据平安性以及整合呆板学习。

                杰夫·贝佐斯(Jeff Bezos)往车库里下订单并亲身开车去邮局时,处置本钱数字,跟踪库存和预测将来需求绝对复杂。快进25年了,亚马逊的批发业务在环球拥有175 多个配送中央,超越25万名全职员工每天运送数百万件商品。

                亚马逊环球财政运营团队的义务十分艰难,即跟踪一切数据(以PB为单元)。  在亚马逊的范围上,错误盘算的目标(比方单元本钱或数据耽误)能够会发生宏大影响(请思索数百万美元)。团队不断在寻觅更快地获取更精确数据的办法。

                这便是为什么他们在2019年有一个主见:树立一个可以支持地球上最大的物流网络之一的数据湖。厥后它在外部被称为Galaxy数据湖。Galaxy数据湖建于2019年,如今一切各个团队都在高兴将数据移入此中。 

                数据湖是一个会合式平安存储库,可让您以任何范围存储,办理,发明和共享一切构造化和非构造化数据。数据湖不需求预界说的架构,因而您可以处置原始数据,而不用晓得未来能够要探究的洞察力。下图表现了数据湖的要害组件:

                剖析:亚马逊怎样经过数据湖处理大数据应战?

                数据湖的要害组件

                大数据的应战

                亚马逊面临大数据的应战与很多其他公司面对的应战类似:数据孤岛,剖析种种数据集的难度,数据控制器才能,数据平安性以及整合呆板学习。让我们细心研讨这些应战,看看数据湖怎样协助处理它们。

                冲破数据孤岛

                公司选择创立数据湖的次要缘由是要冲破数据孤岛。在差别中央拥有由差别组控制的数据包,实质上会掩饰笼罩数据。当公司疾速开展和/或收买新业务时,通常会发作这种状况。就亚马逊而言,两者都是。

                为了在国际上扩张并敏捷创立新的运输方案(比方,收费当日交付或Amazon Fresh),大少数运营方案团队不断在控制本人的数据和技能。后果,数据以差别的方法存储在差别的地位。这种办法使每个团队都能处理题目,呼应客户需求并更快地停止创新。

                但是,很难在构造和公司范畴内了解数据。它需求从很多差别泉源手动搜集数据。云云浩繁的团队独立运作,我们得到了可以经过配合处理题目而取得的服从。

                从数据中获取细致细节也是困难的,由于不是每团体都可以拜访种种数据存储库。关于较小的盘问,您可以在电子表格中共享一局部数据。但是,当数据凌驾电子表格的容量时,应战就呈现了,这通常发作在大型公司中。在某些状况下,您可以共享较初级另外数据择要,但实践上并没有取得完好的图像。

                数据湖经过将一切数据兼并到一其中央地位来处理此题目。团队可以持续充任矫捷单元,但是一切路途都通向数据湖停止剖析。没有更多的筒仓。     

                剖析种种数据集

                运用差别的零碎和办法停止数据办理的另一个应战是数据构造和信息各不相反。比方,Amazon Prime拥有配送中央和包装商品的数据,而Amazon Fresh则有杂货店和食品的数据。

                乃至国际运输方案也有所差别。比方,差别的国度偶然会有差别的盒子尺寸和外形。来自“物联网”设置装备摆设(比方,配送中央呆板上的传感器)的非构造化数据也越来越多。

                并且,差别的零碎能够也具有相反范例的信息,但是其标签差别。 比方,在欧洲,运用的术语是“每单元本钱”,而在北美,运用的术语是“每包装本钱”。这两个术语的日期款式差别。在这种状况下,需求在两个标签之间树立链接,以便剖析数据的人晓得它指的是统一件事。

                假如要在没无数据湖的传统数据堆栈中兼并一切这些数据,则需求少量数据预备以及导出,转换和加载或ETL操纵。您将不得不衡量要保存的内容和丧失的内容,并不时变动刚性零碎的构造。

                数据湖可让您以任何款式导入任何数目的数据,由于没有预界说的架构。您乃至可以及时摄取数据。您可以从多个泉源搜集数据,并将其以原始款式移入数据湖。您还可以在信息之间树立链接,这些信息能够被标志为差别但代表统一件事。

                将一切数据移至数据湖还可以改进传统数据堆栈的功用。您可以灵敏地将高度构造化,常常拜访的数据存储在数据堆栈中,同时还可以在数据湖存储中保存多达EB的构造化,半构造化和非构造化数据。

                办理数据拜访

                由于数据存储在这么多地位,因而很难拜访一切数据并链接到内部东西停止剖析。亚马逊的运营财政数据散布在25多个数据库中,地区团队创立了本人的当地数据集版本。关于某些人来说,这意味着超越25个拜访办理根据。很多数据库都需求拜访办理支持来实行诸如变动设置装备摆设文件或重置暗码之类的操纵。别的,必需对每个数据库停止考核和控制,以确保没有人有不妥拜访权限。

                借助数据湖,可以在适宜的工夫将适宜的数据提供应适宜的人变得愈加容易。不用办理对存储数据的一切差别地位的拜访,您只需求担忧一组根据。数据湖具有容许受权用户检查,拜访,处置或修正特定资产的控件。数据湖有助于确保制止未经受权的用户接纳能够侵害数据秘密性和平安性的步伐。

                数据也以开放款式存储,这使得运用差别的剖析效劳愈加容易。开放款式还使数据更有能够与尚不存在的东西兼容。您构造中的种种脚色,比方数据迷信家,数据工程师,使用顺序开辟职员和业务剖析师,都可以运用他们选择的剖析东西和框架来拜访数据。

                简而言之,您不用范围于一小组东西,而更多的人可以了解数据。

                减速呆板学习

                数据湖是呆板学习和人工智能的弱小根底),由于它们在大型,多样化的数据集上发达开展。呆板学习运用从现无数据中学习的统盘算法(称为训练的进程)来做出有关新数据的决议计划(称为推理的进程)。

                在训练时期,将辨认数据中的形式和干系以树立模子。该模子使您可以对从未遇到过的数据做出明智的决议计划。您拥有的数据越多,就越能训练您的呆板学习模子,从而进步精确性。

                亚马逊环球运营财政团队的最大职责之一是方案和预测亚马逊供给链的运营本钱和资源收入,此中包罗整个运输网络,数百个配送中央,分拣中央,配送站,全食超市,新颖采摘场。上升点等等。

                他们协助答复紧张的初级题目,比方“来岁我们将运送几多包裹?” 和“我们将在薪金上破费几多?” 他们还处理十分详细的题目,比方“下个月我们在佛罗里达州坦帕市需求几多个差别巨细的盒子?” 

                剖析:亚马逊怎样经过数据湖处理大数据应战?

                您的预测越精确,结果越好。假如您估量太低或太高,都能够发生负面影响,从而影响您的客户和利润。

                比方,在亚马逊,假如我们预测需求太低,则配送中央的堆栈工人能够没有充足的供给或驱动顺序缺乏,这能够招致包裹耽误,更多的客户效劳德律风,订单被取消以及得到客户信托。假如我们预测过高,您能够会有库存和箱子围着堆栈占用珍贵的空间。这种状况意味着对需求量更高的产物的空间较小。

                像亚马逊如许的大少数构造都破费少量工夫来预测将来。侥幸的是,呆板学习可以改进预测。客岁,亚马逊运营财政团队停止了测试。他们接纳了一局部预测,并将传统的手动流程与Amazon Forecast停止了比拟。AmazonForecast是一项完全托管的效劳,运用呆板学习来提供高度精确的预测。在此试运转中,由Forecast所完成的预测均匀比经过手动进程完成的预测精确67%。

                经过将一切数据移至数据湖,亚马逊的运营财政团队可以联合数据集来训练和摆设更精确的模子。运用更相干的数据来训练呆板学习模子可以进步预测的精确性。别的,它还开释了手动实行此义务的员工来实行更具战略意义的项目,比方剖析预测以推进现场运营的改进。

                运用准确的东西:AWS上的Galaxy

                亚马逊的批发业务运用某些技能,该技能早于2006年开端创立Amazon Web Services。在过来十年中,为了变得更具可扩展性,服从,功能和平安性,亚马逊批发业务中的很多任务负载已转移到AWS。Galaxy数据湖是外部称为Galaxy的大型大数据平台的紧张构成局部。下图表现了Galaxy依赖AWS的某些方法以及它运用的某些AWS效劳:

                剖析:亚马逊怎样经过数据湖处理大数据应战?

                Galaxy数据湖基于Amazon的Simple Storage Service或工具存储效劳S3构建。一些数据还存储在基于Amazon专有的基于文件的数据存储中,即Andes和Elastic Data eXchange,它们都是Amazon S3之上的效劳层。其他一些数据源是数据堆栈  Amazon Redshift ,Amazon Relational Database Service或RDS以及企业使用顺序。

                AWS Glue 是一项完全托管的ETL效劳,可让您轻松预备和加载数据以停止剖析,而且运用AWS Database Migration Service或DMS  将种种数据集加载到Amazon S3。Galaxy未来自多种效劳(包罗Amazon Redshift,Amazon RDS和AWS Glue数据目次)的元数据资产组合到基于Amazon DynamoDB(键值和文档数据库)构建的一致目次层中。Amazon Elasticsearch Service或  ES  用于在目次上启用更快的搜刮盘问。

                在对数据停止分类或装入后,将在客户端层运用种种效劳。比方,交互式盘问效劳Amazon Athena,用于运用规范SQL停止暂时探究性盘问;Amazon Redshift,一项用于更构造化的盘问和陈诉的效劳;和Amazon SageMaker,用于呆板学习。 

                AWS湖构成

                亚马逊团队重新开端创立了Galaxy数据湖架构。他们不得不在几个月内手动开辟很多组件,这与其他公司过来必需如许做的方法相似。在2019年8月,AWS公布了一项名为AWS Lake Formation的新效劳。

                它使您可以简化数据湖的创立进程,并在几天(而不是几个月)内构建一个平安的数据湖。Lake Formation协助您从数据库和工具存储中搜集和分类数据,将数据移至新的Amazon S3数据湖中,运用呆板学习算法对数据停止清算和分类,以及平安拜访敏感数据。

                择要

                经过以基于开放规范的数据款式将数据存储在一致的存储库中,数据湖可让您剖析孤岛,运用种种剖析效劳从数据中获取最大的见地,并以经济高效的方法满意存储和数据处置需求随着工夫的推移。

                关于亚马逊的财政运营团队而言,Galaxy数据湖将为其环球用户提供集成体验。Galaxy的根底设备建于2019年,如今种种数据库零碎都在迁徙到数据湖中。运用该东西的团队如今曾经看到了它的益处,来由是消弭了手动流程和蠢笨的电子表格,消费率的进步以及可用于增值剖析的更多工夫。

                持续阅读
                中国存储网声明:此文观念不代表本站态度,若有版权疑问请联络我们。
                相干阅读
                产物引荐
                头条阅读
                栏目热门

                Copyright @ 2006-2019 ChinaStor.COM 版权一切 京ICP备14047533号

                中国存储网

                存储第一站,存储流派,存储在线交换平台