0°

图解Storm并发机制及其执行流程

内容预览:
  • (2)Workers(JVM虚拟机):是指一个node节点服务器上相互独立运行的JV...~
  • (3)Executor(线程):是指一个worker的JVM进程中运行的Java线程~
  • 始发于微信公众号: Java后端技术 上一篇一、Storm架构简介在上一篇,我...~

始发于微信公众号: Java后端技术

上一篇

一、Storm架构简介

在上一篇,我们对Storm集群进行了搭建,并使用Java完成了代码的演示,我们知道在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。

一个拓扑中包括spoutbolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt中可以完成计算、过滤等操作,bolt自身也可以随机将数据发送给其他bolt。由spout发射出的tuple是不可变数组,对应着固定的键值对。

图解Storm并发机制及其执行流程

在Storm中,一个task可以简单的理解为在集群某节点上运行的一个spout或者bolt实例。在集群运行运行中,topology主要有四个组成部分:他们从低到高分别是:task(bolt/spout实例)、Executor(线程)、Workers(JVM虚拟机)、Nodes(服务器)

各个部分的含义如下:

(1)Nodes(服务器):是指配置在一个Storm集群中的服务器,会执行topology的一部分运算。一个Storm集群可以包括一个或者多个工作node。

(2)Workers(JVM虚拟机):是指一个node节点服务器上相互独立运行的JVM进程。每一个node可以配置运行一个或者多个worker。一个topology会分配到一个或者多个worker上运行。

(3)Executor(线程):是指一个worker的JVM进程中运行的Java线程。多个task可以指派给同一个executor来执行。除非是明确指定,Storm默认会给每一个executor分配一个task。

(4)Task(bolt/spout实例):task是spout和bolt的实例,衙门的nextTuple()和execute()方法会被executors线程调用执行。

结构图如下:

图解Storm并发机制及其执行流程

二、Topology的并发机制 / 默认配置


以上一篇的代码为例,Topology的代码(代码A)如下:

图解Storm并发机制及其执行流程

可以看到Topology中有RandomNameSpout和两个Bolt:UpperBoltAppendBolt,执行流程如下:

图解Storm并发机制及其执行流程

上边的代码在默认的情况下,我们没有使用Storm中并发机制提供的API,全部都是默认的,在大多数情况下,除非明确指定,Storm的默认并发设置是1。

在这里,我们假设有一台服务器(Node节点),为topology分配了一个worker,并且每个executor执行一个task,那么上述代码(代码A)的执行流程如下图(图A)所示:

图解Storm并发机制及其执行流程

由上图,我们可以看出,唯一的并发机制出现在线程级。每个任务Task在同一个JVM的不同线程中执行。

三、Topology的并发机制 / 给Topology增加worker



增加额外的worker是增加topology计算能力的简单方式,Storm提供了简单的配置使我们增加worker的方式变得很容易,只需修改如下代码即可,其它代码不变:

图解Storm并发机制及其执行流程

这样的话,整个topology就分配了2个worker而不是默认的1个。那么上图图A应该变成如下方式,如图(图B):

图解Storm并发机制及其执行流程

四、Topology的并发机制 / 配置executor和task / 1



Storm并发机制API允许设定每个task对应的executor个数和每个executor可执行的task个数。在定义流分组的时候,也可以设置每一个组件指派的executor的数量。例如:我们修改RandomNameSpout并发为两个task,每个task指派各自的executor线程,还是只使用1个worker代码修改如下:

图解Storm并发机制及其执行流程

注意官方API对于setSpout()方法的定义注释是这样的:

图解Storm并发机制及其执行流程

对于第三个参数,意思是:设置Spout的并发为两个task,每个task指派给各自的executor线程,由于默认情况下,每一个线程executor执行一个task,所以我们可以理解为,分配了两个线程executor,每一个executor线程执行一个任务task。

那么上图图A应该变成如下方式,如图(图C):

图解Storm并发机制及其执行流程

五、Topology的并发机制 /  配置executor和task / 2


上述,增加了Spout的线程数,在默认情况下每一个线程executor是处理一个task,那么,我们接下来设置多个executor和多个task,完整代码如下:

图解Storm并发机制及其执行流程

那么上图图A应该变成如下方式,如图(图D):

图解Storm并发机制及其执行流程

有上述代码,可知设置了2个worker,因此每一个worker平均分摊执行相应的task,最后的结果就如上图所示。

值得注意的是:如果只在一台Node服务器上增加worker的数量,例如:topology执行在本地模式的时候,并不会显著地提升系统的性能,也是会出现瓶颈的,这是因为topology在本地模式下是在同一个JVM进程中执行的,必然会有相关资源的竞争等,所以只有增加task和executor的并发配置才会生效。

六、Topology的并发机制 /  特殊情况



实际开发中可能存在这种情况,例如:我们在上述的基础上在增加一个类似于汇总的Bolt进行统计字符串的多少,那我,我们只可能对这个Bolt设置为单线程、单任务的方式进行统计,而不可能在使用多线程或多任务的方式进行统计,原因很简单,执行示意图如下:

图解Storm并发机制及其执行流程

代码如下:

图解Storm并发机制及其执行流程

那么上图图A应该变成如下方式,如图(图E):

图解Storm并发机制及其执行流程

由此,我们可以知道,Storm提供了简单的API接口让我们能够很方便的进行并发控制,但是我们也要根据具体的业务设置合理的executor和task等数目,以免发生错误的结果。

参考文章:

1、http://www.csdn.net/article/2015-03-09/2824135

版权声明


Java后端技术所推送文章,为本人原创、网上收集或其他作者投稿,对于网上收集部分除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,我们会在24小时内删除处理,谢谢!^_^   QQ:1573876303


图解Storm并发机制及其执行流程
微信公众号,长按关注或微信搜索公众号:Java后端技术。
图解Storm并发机制及其执行流程

和大佬一起学习网络安全知识

以上就是:图解Storm并发机制及其执行流程 的全部内容

本站部分内容来源于互联网和用户投稿,如有侵权请联系我们删除,谢谢^^
Email:[email protected]


0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论