Category: Architecture
[转]如何使用Redis流和Apache Spark处理实时数据?
1. 本文要点 Apache Spark 的流框架(Structured Streaming)为数据流带来了 SQL 查询功能,让用户可以实时、可扩展地处理数据。 Redis 流(Redis Stream)是 Redis 5.0 新引入的数据结构,能够以亚毫秒级的延迟高速收集、保存和分发数据。 用户集成 Redis 流和流框架后就能简化连续应用程序(continuous application)的扩展工作。 开源的 Spark-Redis 库将 Apache Spark 与 Redis 连接起来。该库为 Redis 数据结构提供 RDD 和数据帧 API,使用户可以将 Redis 流用作流框架的数据源。 流框架是...
[转]从Storm到Flink,有赞五年实时计算效率提升实践
有赞是一个商家服务公司,提供全行业全场景的电商解决方案。在有赞,大量的业务场景依赖对实时数据的处理,作为一类基础技术组件,服务着有赞内部几十个业务产品,几百个实时计算任务,其中包括交易数据大屏,商品实时统计分析,日志平台,调用链,风控等多个业务场景,本文将介绍有赞实时计算当前的发展历程和当前的实时计算技术架构。
[转]Flink如何取代JStorm,成为字节跳动流处理唯一标准?
本文主要内容包括: 引入 Apache Flink 的背景 Apache Flink 集群的构建过程 构建流式管理平台 近期规划
[转]Hadoop 生态组件
虽然流计算对于大数据处理来说越来越重要,但不支持流计算却不会成为 Hadoop 的致命伤。虽然 Hadoop 自身不提供流计算服务,不过主要的流计算组件,如 Storm、Spark Streaming 以及 Flink 本身就属于 Hadoop 生态系统的一部分,因此并不构成太大的问题。 曾有开发者向 AI 前线表示,Hadoop 主要是被 MapReduce 拖累了,其实 HDFS 和 YARN 都还不错。堵俊平则认为 MapReduce 拖累 Hadoop 的说法并不准确,首先 MapReduce 还是有应用场景,只是越来越窄,它仍然适合某些超大规模数据处理的批量任务,且任务运行非常稳定;其次,Hadoop 社区对于 MapReduce 的定位就是进入维护模式, 并不追求任何新的功能或性能演进,这样可以让资源投入到更新的计算框架,比如 Spark、Tez,促进其成熟。
[转]Flink靠什么征服阿里工程师?
时下,谈及大数据,不得不提到热门的下一代大数据计算引擎 Apache Flink(以下简称 Flink)。 本文将结合 Flink 的前世今生,从业务角度出发,向大家娓娓道来:为什么阿里选择了 Flink? 1. 为什么阿里选择了 Flink 随着人工智能时代的降临,数据量的爆发,在典型的大数据的业务场景下数据业务最通用的做法是:选用批处理的技术处理全量数据,采用流式计算处理实时增量数据。 在绝大多数的业务场景之下,用户的业务逻辑在批处理和流处理之中往往是相同的。 但是,用户用于批处理和流处理的两套计算引擎是不同的。因此,用户通常需要写两套代码。毫无疑问,这带来了一些额外的负担和成本。 阿里巴巴的商品数据处理就经常需要面对增量和全量两套不同的业务流程问题,所以阿里就在想,我们能不能有一套统一的大数据引擎技术,用户只需要根据自己的业务逻辑开发一套代码。 这样在各种不同的场景下,不管是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持,这就是阿里选择 Flink 的背景和初衷。 目前开源大数据计算引擎有很多选择,流计算如 Storm、Samza、Flink、Kafka Stream 等,批处理如 Spark、Hive、Pig、Flink 等。 而同时支持流处理和批处理的计算引擎,只有两种选择: Apache Spark。 Apache Flink。 从技术,生态等各方面的综合考虑。首先,Spark 的技术理念是基于批来模拟流的计算。而 Flink 则完全相反,它采用的是基于流计算来模拟批计算。 从技术发展方向看,用批来模拟流有一定的技术局限性,并且这个局限性可能很难突破。...
[转]Flink靠什么征服饿了么工程师
本文将为大家展示饿了么大数据平台在实时计算方面所做的工作,以及计算引擎的演变之路,你可以借此了解 Storm、Spark、Flink 的优缺点。如何选择一个合适的实时计算引擎?Flink 凭借何种优势成为饿了么首选?本文将带你一一解开谜题。