云是数据仓库合适的地方吗?
【摘要】来自Amazon Web服务近的次用户会议的大消息是公司推出的新服务, Redshift,一种基于云的数据仓库工具。而它引发了一个疑问: 云是数据仓库的合适地方吗? AWS官员说, 对于还在试图管理数据的公司,云可以提供一种低成本的替代方案,替代投资于基础设施并在自己的网站上管理所有的数据。虽然,也许阻碍Redshift的大的问题是一般使用公共云时相同的担心。有些人会不放心把敏感的金融或个人身份数据放在任何人的公共云中。然后还有一个问题,所有这些数据实际上是如何转移到云的。
来自Amazon Web服务近的次用户会议的大消息是公司推出的新服务, Redshift,一种基于云的数据仓库工具。而它引发了一个疑问: 云是数据仓库的合适地方吗?
AWS官员说, 对于还在试图管理数据的公司,云可以提供一种低成本的替代方案,替代投资于基础设施并在自己的网站上管理所有的数据。虽然,也许阻碍Redshift的大的问题是一般使用公共云时相同的担心。有些人会不放心把敏感的金融或个人身份数据放在任何人的公共云中。然后还有一个问题,所有这些数据实际上是如何转移到云的。
这些问题,综合了有关成本和可管理性的潜在利益,加上有关安全性和数据传输的担心,可能意味着Redshift会走许多其他AWS的面向企业的服务的老路,Wikibon Project的一位大数据研究员说。已经接受了Amazon的云的前瞻性企业可能更迅速地转移到云的服务, 比如数据仓库, 而在接受云上较缓慢的更大企业可能会以用例基础上测试这种服务,看看它是否适合他们。
数据仓库传统上被定义为定制的数据存储服务,聚合了来自多个不同来源的数据,并在收集在一个中央位置以便能够运行报表和查询。许多公司使用数据仓库来编译定期的财务报表或业务度量分析。Redshift是一种基于纵列/ SQL的工具,用于从TB的规模扩展到多个PB的规模。
AWS随着Redshift一起发布还有两类新的虚拟机实例与Redshift一起工作,包括一个XL实例, 有2 TB的本地存储, 和一个8 XL实例类型,有16 TB的存储。AWS已经与数据库分析公司ParAccel合作在AWS的母公司A***去年在该公司投资之后架构Redshift。像传统的本地数据仓库一样,Redshift可以被用来例如整合来自Amazon的 DynamoDB NoSQL数据库的数据,简单存储服务(S3),整合来自用户拥用的本地现有应用程序中的数据。Redshift是一个数据存储器,让数据可以接触到业务分析工具,运行报表。
“我认为Redshift肯定会有一些好处” Wikibon研究员说,。“数据仓库的一个问题是很多时候它的非常关键的, 专有的信息,一些企业可能不愿移送到云提供商。”虽然如此,对于有些企业的数据是孤立的,需求在变化,或有些企业没有本地基础设施来管理数据仓库,它可能是一个有吸引力的选择。“如果你已经在云中进行数据管理,尤其是Amazon的云,这看起来像是一个利用新服务的机会,”他说。
云中的数据仓库面临的大挑战是如何将数据转移到AWS云。在公共互联网上输送TB,甚至PB级的数据到AWS云不仅会有安全问题, 还将耗尽带宽。AWS是有连接到第三方供应商网站, 像Equinix,直接连接到它的云。而且AWS官员说通过货运在物理磁盘发送数据是客户在AWS云中输入输出数据的一种常见方式。
当然, 如果数据已经在AWS云中,数据迁移到云中并没有多少问题,许多目前为止一切已经在使用AWS云服务的创业公司就是这种情况。AWS在会议的第二天公布的Data Pipeline用以帮助管理用10个千兆连接在AWS云中的数据转移。但许多有大量数据的企业已经有一个数据仓库, 所以企业可能为新的数据仓库测试Redshift, 但公司的敏感信息如财务报表或客户的个人身份信息可能不会很快采用它。
AWS说Redshift的大优势之一是成本。AWS说, 基于A***自身对Redshift的使用,它可以每年每TB字节1000美元管理数据,相比本地的数据仓库,每年19000美元至25000美元TB字节。
对于大公司来说这是一个潜在的成本节约,也了限制中小企业用数据仓库的成本障碍, AWS首席数据科学家Matt Wood说。他说, 同样重要的是Redshift和其他AWS服务让企业专注于自己的业务, 而不是管理基础设施。Redshift“旨在为客户去除在庞大的规模上运行基础设施的重负”, Wood说。“这可以让你专注于你的核心竞争力。”
所以如果AWS认为数据仓库非常适合云计算, 为什么任何其他供应商没有这样做呢? 一款名叫Kognitio的欧洲数据管理和商业智能BI平台, 有一些关于基于云的数据仓库的推广并试图进军美国企业市场, 但自从两年前推出以来没有获得大量的关注。像Oracle、微软、IBM和其他数据仓库中坚分子有基于云的数据仓库可能, 但还没有公开宣告它们的能力。
然后还有该市场的新进者。EMC和VMware近有零星的动作,宣布他们的Pivotal Initiative,一种结合了各公司的大数据和基于云计算的技术。谷歌, 以其BigQuery服务, 是另一个值得关注的该市场的参与者。
虽然Redshift似乎是AWS自然的转变。该公司近一直在寻求加强它的产品、服务和对企业市场的普遍吸引,很明显的是像Redshift 和Glacier这样的新服务的发布。AWS高管也在用户大会上说了不少关于企业市场,显然倾斜于大企业。虽然Redshift仍处于初期阶段,AWS只发布了该产品的限制极测试版,迄今为止对何时才能有完整版的Redshift可能三缄其口。
即使现在大多数企业还没有准备好云数据仓库的大用例,数据仓库研究所数据管理主管PhilipRussom说Redshift对于AWS是对这一市场的先发尝试。“如果你是一个供应商,你想在市场形成之前领先,”他说。“Amazon在云市场上业绩很好,所以如果某人希望卸载数据仓库到云,这是自然要考虑的地方。”
速鸿科技(http://www.suhon***/) - BI商业智能大数据分析工具与服务提供商