您现在的位置是:LG博客 > 大数据 >

后 Hadoop 时代,大数据分析路在何方?

2021-06-11 01:44:23163人已围观

近期,Apache 软件基金会宣布归档了 13 个与大数据相关的项目,其中 10 个是属于 Hadoop 生态的项目,例如 Eagle、Sentry、Tajo 等。

Apache Hadoop 作为一个完整的开源大数据套件,在过去的十多年里深刻影响了整个计算机界。但随着各类新兴技术的发展, Hadoop 生态圈已经发生了巨大的变化。Hadoop 已死吗?如果是真的话,那么谁会取代?大数据分析的未来又将走向何处?

本文整理自 Kyligence 首席架构师、Apache Kylin PMC Chair 史少锋在由七牛云主办的 2021 ECUG Con 上的主题演讲《大数据分析如何迎接后 Hadoop 时代》。

1Hadoop 为大数据而生

过去二十年里,人类一直处在一个数据爆炸的时代。企业的传统业务数据如订单、仓储的增量相对平缓,在整体数据量中的占比逐渐减少;取而代之的是人类数据(例如社交媒体、照片、行为画像等数据)和机器数据(日志、IoT 设备等产生的数据)大量被采集和保存,它们的量级远远超过传统业务数据。在海量数据和人类既有能力之间,一直存在着巨大的技术缺口,这个缺口催生了各类大数据技术,从而诞生了我们所说的大数据时代。

后 Hadoop 时代,大数据分析路在何方?

根据业界普遍达成的共识,一个大数据系统需要满足 3 个方面的需求:

1 ) Volume:数据容量要大,这是大数据系统的首要特性。

2 ) Velocity:数据处理速度要快。

3 ) Variety:要能够处理多样的数据类型,包括结构化、半结构化、非结构化,甚至图片视频等等。

后 Hadoop 时代,大数据分析路在何方?

Hadoop 就是这样一个全功能的大数据处理平台,它包含了多种组件以满足不同的功能,例如 HDFS 做数据存储,Yarn 做资源管理,MapReduce 和 Spark 做数据计算和处理,Sqoop 做关系数据采集,Kafka 做实时数据管道,HBase 做在线数据存储和访问,Impala 做在线 Ad-hoc 查询等。Apache Kylin 也是 Hadoop 生态组件中的一员,借助于其它组件来完成计算和存储,自身专注于高性能 OLAP 分析,从而对 Hadoop 生态能力形成补充。Hadoop 诞生后很快就利用集群并行计算,打破了由超级计算机保持的排序记录,证明了自己的实力,进而逐渐被企业和各种组织广泛采纳。

后 Hadoop 时代,大数据分析路在何方?

2Hadoop 这十年

借助「大数据」的东风以及 Apache 开源社区的影响力,Hadoop 快速普及,随之而来的是一票商业化公司涌现。此外,公有云厂商也在云上提供了托管的 Hadoop 服务。但到 2018 年,整个市场风云突变,一则重磅新闻让整个 Hadoop 生态圈炸锅了:Cloudera 和 Hortonworks 合并了,也就是说这个市场上的第一名和第二名抱团了;紧接着 HPE 宣布收购 MapR,这些迹象说明, 在 Hadoop 风光的表象之下,是企业经营困难,钱难赚了。

后 Hadoop 时代,大数据分析路在何方?

后 Hadoop 时代,大数据分析路在何方?

回看国内,华为也官宣了一个重大改变,将旗下 Hadoop 大数据平台产品 FusionInsight HD 与华为云上的 Hadoop 产品 MRS 进行合并,演变成 FusionInsight MRS 的云原生架构;坊间传言以后 FI 不再单独发行,要跟华为云一起售卖,不禁让人浮想联翩。作为多年 Hadoop 用户的你,相信此刻心情一定是五味杂陈的。

回看 Hadoop 的发展历史,它能兴起是因为用户对于大数据处理的旺盛需求。但在今天,用户对数据管理和分析有了新的需求,例如在线快速分析、存算分离或者 AI/ML 等面向人工智能与机器学习方面,Hadoop 的支持比较有限,无法和一些新兴的技术相比较,例如这几年很火的 Redis、Elastisearch、Clickhouse 等都可以做大数据分析。对于客户而言,如果用单一技术就能满足需求,那么就大可不必去部署复杂的 Hadoop 平台了。

后 Hadoop 时代,大数据分析路在何方?

从另一个角度来看,云计算在过去十多年快速发展壮大,不光干翻了传统企业软件厂商如 IBM、HP 等,也一定程度上蚕食了 Hadoop 所处的大数据处理和分析市场。早期,云厂商还只是在 IaaS 层提供了 Hadoop 的部署,例如 AWS EMR (它号称是全世界部署最多的 Hadoop 集群)。对于用户来说,云上托管的 Hadoop 服务可以随开随停,数据也可以放心地备份在云厂商的数据服务上,使用简单的同时也会节约资源和成本。此后,云厂商打造了更多面向特定场景的大数据服务,从而形成了一个完整的生态。例如 AWS 的 S3 实现数据的高持久低成本存储,Amazon DynamoDB 实现低延迟的 KV 数据存储和访问,以及无服务器的大数据查询服务 Athena 等。

相关文章

-