数据计算中间件技术综述

  • 时间:
  • 浏览:0

真难,要怎样会会不考虑在数据应用领域也采用中间件技术呢?

数据计算中间件

要怎样会会提出数据计算中间件这一概念?否则在开发数据应用的过程,我们我们我们 都我们我们我们 都通常回会被以下的问提所困扰。

作者:WeiWei

链接:http://c.raqsoft.com.cn/article/1537237515333

来源:乾学院

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

上图是我们我们我们 都我们我们我们 都都不熟悉的基于 Hadoop 体系的开源大数据架构图。在这一架构中,大致能不也能分成三层。最下一层是数据采集,通常会采用 kafka 否则 Flume 将 web 日志通过消息队列传送到存储层否则计算层。对于数据存储,目前 Apache 社区提供了多种存储引擎的选择,除了传统的 HDFS 文件和 HBase,还提供了 Kudu、ORC、Parquet 等列式存储,我们我们我们 都我们我们我们 都能不也能根据自身的需求特点进行选择。在这之上的数据计算层,选择就更充沛了。否则你想做实时推荐,能不也能采用 Storm、Spark Streaming 那我的流计算引擎对 Kafka 否则 Flume 传递上来的数据进行实时避免。否则你想进行客户画像,能不也能使用 Mahout 否则 Spark LMlib 里的机器学习算法进行分类。否则你想查看当天的销售排名,能不也能使用 HBase、Impala 否则 Presto。否则想对这一商品的销售进行复杂的漏斗分析,则使用 HIVE 否则 Spark 否则会更为宜。

当然,我们我们我们 都我们我们我们 都根据每所有人 的需求,能不也能叠去掉 Redistribution 缓存,ElasticSearch 全文本搜索,否则像 MongoDB、Cassandra 什么产品。却说我,我们我们我们 都我们我们我们 都会发现,其我觉得 大数据计算方面,并真难什么很重成熟的句子的句子的句子 图片 期期的句子是什么图片 期的架构,我们我们我们 都我们我们我们 都所做的大多回会 针对这一问提点不断进行创新、改进和修正,再把十有几个 产品想依据整合起来。这是否则做为有有三个 新兴的领域,大数据计算方面的技术积累还很过低,还有却说我难点真难攻克,还发生有有三个 不断成长的阶段。而在大数据技术开拓创新上,互联网企业是引领潮流的。目前的小量收到追捧的大数据技术产品,大多回会 由互联网企业。做为大数据技术的基石的 Hadoop 的基本思想基于 Google 的 Map/Reduce 和 Google File System,Presto 来自于 Facebook,贡献了 Impala 和 Flume 的 Cloudera 我觉得 不算一家互联网公司,否则暗含 很强的互联网基因。国内的 BAT 等互联网企业也对大数据开源社区做出了很大贡献。

但这也带来了有有三个 问提,那却说我什么大数据产品即架构回会 针对互联网企业的否则需求与场景设计的。我觉得 什么需求和场景具有一定的普适性,否则在企业的整体 IT 架构上,传统企业与互联网企业有着很大的不同。

首先,传统企业和互联网企业在专业技术人员配备上有很大的不同。互联网企业聚集了小量的高水平计算机软件设计开发维护人员,这是绝大多数传统企业所不具备的。这里的差别有有三个 是在量。传统企业中,有有三个 拥有几百个技术人员的信息中心否则是有有三个 相当大的团队了;而互联网企业的技术人员往往回会 数千人的规模,像 BAT 那我的企业,开发维护技术人员都达到了上万人。那我差别则在质上。互联网企业中通常会有一支专门的平台支撑专家团队,有能力自行及时修复开源产品中的 BUG,保障系统服务的稳定运行。而否则薪资等方面的原因分析,传统企业往往真难招到掌握开源产品核心技术的顶级开发者。这给开源产品的使用带来的隐患。一旦开源产品出現 的 BUG 等问提,无人能不也能及时应对,否则给企业的生产服务造成很大的损失。

其次,传统企业的 IT 架构也和互联网企业有很大不同。互联网企业的历史相对较短,否则具有以开源软件为基础自行研发应用的基因,各企业当时人对各种技术细节业务逻辑都非常了解,大数据系统甚至是和业务系统紧密联系的,不需要有越多的集成性的问提。而传统企业往往历史较长,在 IT 建设走越多种技术路线,往往有小量的架构不统一的遗留系统。却说我企业过去那我建设过企业数据仓库,现在又刚开始建设大数据平台,这之间又真难很重严格的划分,不仅造成却说我功能的重叠,更是造成了却说我的数据冗余,却说我数据会在不同的系统中保留多份拷贝,甚至不少企业需用频繁地把同一份数据在不同的系统中来回传输。这就带来了很严重的集成性问提。

第三,相对于互联网企业,大多数传统企业的数据量我觉得 并真难真难大。相比较 Google 每秒超 10 万次的搜索,支付宝双十一每秒超过 25 万笔交易,绝大多数的传统企业的数据量真没真难大,否则还不至于成为不可攻克的问提。对于那我的数据量,否则传统的技术就能不也能避免,而不一定不也能用到 Hadoop 那我重的架构。而为了挖开什么数据中的价值,多源异构的复杂环境否则是有有三个 更加麻烦的问提。

他山之石能不也能攻玉

有的事先,在考虑有有三个 问提的避免依据时,从类似于于问提的避免依据中获得这一借鉴是有有三个 不错的刚开始。

我觉得 ,在交易类应用领域,也曾出現 过类似于于的请况。企业中运行这各种各样的应用系统,什么应用由不同的开发者开发,技术路线、体系架构、遵循的标准都相差甚远,造成了有有三个 个信息孤岛,这一需用共享的信息,不也能在系统之间交换,造成却说我信息的滞后和数据不一致问提。

真难我应该 什么问提避免多会儿?又是要怎样会会避免的?————一群人科学造出了中间件。

什么是中间件,并真难人对它做出有有三个 科学的定义。总体来说,是有有三个 为了避免分布异构问提而提出的有有三个 概念它发生平台 (硬件和操作系统) 和应用之间,为双方否则多方提供的通用服务,什么服务具有标准的线程池池接口和协议。针对不同的操作系统和硬件平台,它们能不也能有符合接口和协议规范的多种实现。 避免多源异构并回会 中间件出現 的唯一原因分析,否则是它避免的异构重要问提,一般来说,中间件具有以下特点:

尚待避免的这一困难

当然,数据计算中间件的概念事先被提出,集算器也是一款新产品,概念需用不断验证完善,产品也肯定会有却说我过低之处。目前可见的困难由以下两点。

以上却说我我们我们我们 都我们我们我们 都评估数据计算中间件的十有几个 关键考量,能不也能简称为 CHEASE。否则在 CHEASE 对应的三个 方面都得到很好的满足,那这却说我一款优秀的数据计算中间件。

润乾集算器

数据计算中间件是有有三个 全新的概念,目前数据计算方面的产品中,与之最接近的是集算器。集算器是北京润乾信息系统科技有限公司完正自主研发的一款轻量级大数据融合计算平台,一种生活针对价值形式化和半价值形式化数据的计算设计开发的新型计算引擎。集算器的设计目标,是试图避免描述计算的时延和实施计算的时延。集算器具有以下这一特点。