裸机云上运行大数据分析
,以降低复杂性并提高运营效率。根据经验,在准备过渡到云时,有两个要点要考虑:数据存储和数据处理。 要存储的数据山 对于大数据项目,首先需要考虑的是分布式数据存储。参照Brewer定理,分布式数据存储不可能同时提供两个以上的保证:即一致性,可用性还是分区容限。因此,选择两个,这很好。与以往一样,选择取决于您的应用程序。 为了保持大数据轮旋转,需要高度可伸缩,高效且经济高效的存储。几乎总会是某种类型的NoSQL数据库-如今,您可以 选择超过225个NoSQL数据库。 还记得布鲁尔定理吗?这是您开始做出牺牲的时候。如果您可以容忍某些数据不可用的风险(牺牲可用性),那么您可以采用一种高度灵活且易于扩展且具有简单查询功能的文档数据库,例如MongoDB。如果您的客户可能读取不一致的数据(牺牲一致性),这没什么大不了的,那么您可能想要选择容错且线性可扩展的数据库,例如Cassandra。 当您考虑使用传统的关系数据库管理系统(例如MySQL或PostgreSQL)并牺牲分区容忍度时,甚至还有一些利基用例。尽管这可以验证您的行家身份,但可能涉及数据库分片,并使处理非结构化数据几乎变得不可能。让我们仅使用SQL来查询数据仓库,对吧? 无论选择哪种数据库,大多数数据库在商用硬件上都能很好地运行。尽管如今所有超大规模云提供商都在提供托管数据库服务-其中有些人不愿意让开源成为中指 -但是,当有出色的开源产品出现时,就不必陷入其生态系统中。 例如,您可以在具有HDD,SSD或NVMe直接连接的存储的裸机云上运行MongoDB集群,从而使每个节点上的I / O操作激增。而且,如果您是真正的速度爱好者,则可能需要设置像Ignite或Redis这样的内存数据库。 让我们处理数据!等等,但是如何? 数据是新的石油,并非没有原因。我们喜欢数据;它有助于我们更好地理解事物并揭示可行的见解。为此,我们必须以一种或另一种方式处理数据。
首先是Hadoop,其基于MapReduce计算范例的批处理计算 (编辑:保山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |