ETL工作流活动优先级的确定及并行实现(3)

时间：2026-04-24 来源：未知

小中大

字号：

工作流技术介绍

确定活动优先级的时候，把每一个抽取操作（即起始操作）的优先级定义为１（假定ＥＴＬ工作流的优先级从数值１开始，依次递增，数值越小优先级越高），然后分析其他的非起始活动。对于每一个尚未确定其优先级的活动，如果它的所有前驱活动都已经确定了优先级，那么可以通过计算它的所有前驱活动优先级的最大值，再加１取得。通过遍历活动集中的所有活动，就可以确定ＥＴＬ工作流中所有活动的优先级。

算法１　确定ＥＴＬ工作流活动优先级

输入：图Ｇ（Ｖ，Ｅ）表示ＥＴＬ工作流，Ｖ表示工作流中的活动集，Ｅ表示活动之间的拓扑关系；

输出：活动节点集Ｖ，包含了ＥＴＬ工作流中各个活动的执行优先级信息。

ＬＬ１　Ｌ２　ｕｎｖｉｓｉｔｅｄｆｏｒｅａｃｈａｃｔ＝ｉｎＶ；Ｌ３　　　　ｉｆ（ａｃｔ∈Ｖ｛

ｓｔａｒｔＡｃｔｉｖｉｔｙ）Ｌ４　　　　　Ｌ５　　　　　ａｃｔｖｉｓｉｔｅｄ．ｏｒｄｅｒ｛＝＝１；

Ｌ６　　　　　Ｌ７　ｗｈｉｌｅ（ｕｎｖｉｓｉｔｅｄ＝ｖｉｓｉｔｅｄｕｎｖｉｓｉｔｅｄ∪｛ａｃｔ–｝｛；

ａｃｔ｝；｝｝Ｌ８　　Ｌ９　　　　　ｆｏｒｅａｃｈｕｎｖｉｓｉｔｅｄＬ１０　　　　　ｉｆａｃｔｉｓｎｏｔｅｍｐｔｙ）｛（ａｃｔ橙（ｉｎ．ｏｒｄｅｒａｕｎｖｉｓｉｔｅｄ，ａｃｔ｛

＝）ｍａｘ∈｛Ｅａ．ａｎｄｏｒｄｅｒａ｝∈＋１；ｖｉｓｉｔｅｄ）｛Ｌ１１　　　　　１２　　　　　ｖｉｓｉｔｅｄｕｎｖｉｓｉｔｅｄ＝＝ｖｉｓｉｔｅｄｕｎｖｉｓｉｔｅｄ∪｛ａｃｔ–｝｛；

ａｃｔ｝；｝｝｝

在上面的算法描述中，Ｌ１将活动节点集的所有活动都放在ｕｎｖｉｓｉｔｅｄ数组中，表示所有活动都是未访问的；Ｌ２～Ｌ６遍历整个节点集并判断活动ａｃｔ是否是起始操作，如果是则将其优先级设置为１，将其加入ｖｉｓｉｔｅｄ数组，并从ｕｎｖｉｓｉｔｅｄ数组中将其移除；Ｌ７～Ｌ１２不断遍历ｕｎｖｉｓｉｔｅｄ数组直到其为空，Ｌ９表示如果一个活动ａｃｔ的所有前驱活动的优先级都已经确定，则ａｃｔ的优先级也可以确定，Ｌ１０计算ａｃｔ所有前驱活动优先级的最大值，再加１作为ａｃｔ的优先级，同时将ａｃｔ加入ｖｉｓｉｔｅｄ数组，并从ｕｎｖｉｓｉｔｅｄ数组中将其移除。２畅２　并行执行ＥＴＬ工作流中的活动

确定了ＥＴＬ逻辑模型中每一个活动的优先级之后，ＥＴＬ工作流引擎会按照优先级从高到低依次执行工作流中的每一个活动。

在使用串行方法执行的工作流引擎中，每次从活动集中获取优先级最高的一个活动并执行，执行完一个活动之后再选择另一个当前优先级最高的活动执行，不断重复这样的过程直到ＥＴＬ工作流中的所有活动执行完毕如果存在多个活动的优先级相同。

，在上述的串行方法中需

要依次顺序执行这些活动，但是这些活动是可以并行执行的。把这些活动放进一个执行阶段，每一个执行阶段都是一个容器，存放多个优先级相同的活动。同一执行阶段的活动不存在依赖关系，根据前面的讨论，存在依赖关系的活动构成严格偏序关系，其优先级不可能相等。并行执行优先级相同的多个活动能够获得更高的时间效率。

在同一执行阶段中的各个活动，在执行顺序上不存在依赖关系，但ＥＴＬ工作流是以数据为中心的，各个活动处理的对象是数据库中的数据表或者操作系统中的文件，有可能存在同一执行阶段的两个或者多个活动对同一对象（数据表或者文件）进行操作的情况。如果操作对象是数据库中的数据表，大多数

数据库管理系统都有比较完善的并发执行控制机制，所以ＥＴＬ工作流引擎把并发读写一个数据表所需要处理的工作（如对数据表加锁等）交给相应的数据库管理系统进行处理；如果在同一执行阶段存在多个活动对同一个文件进行操作，则必须把这些活动分配到不同的执行阶段中执行，每次只允许相互争夺资源（即文件）的一个活动对文件进行读写，这样可以保证ＥＴＬ工作流中每一个活动所处理的数据满足一致性的要求在并行计算环境中，可以创建多个线程分别执行同一个执

。

行阶段中可以并行执行的活动。下面的算法描述工作流引擎识别并执行这些活动的过程。

算法２　ＥＴＬ工作流引擎识别与执行活动算法描述

输入：活动节点集Ｖ，包含了ＥＴＬ工作流中各个活动的执行优先级信息。

输出Ｌ：ＥＴＬ工作流的执行结果Ｌ１　Ｌ２　ｕｎｆｉｎｉｓｈｅｄＡｃｔｓＬ３　　ｗｈｉｌｅ＝Ｖ；

ｒｕｎＡｃｔｓ（ｕｎｆｉｎｉｓｈｅｄＡｃｔｓｉｓｎｏｔｅｍｐｔｙ）｛Ｌ４　　Ｌ５　　ｒｕｎＡｃｔｓ＝ｆｏｒｅａｃｈ＝ｇｅｔＨｉｇｈｅｓｔＰｒｉｏｒｉｔｙＡｃｔｓｈａｎｄｌｅＣｏｎｆｌｉｃｔＡｃｔ（ｒｕｎＡｃｔｓ（）；）；Ｌ６　　　７　　　ｃｒｅａｔｅＴｈｒｅａｄａｃｔｉｎｒｕｎＡｃｔｓｕｎｆｉｎｉｓｈｅｄＡｃｔｓ（ａｃｔ｛＝）ｕｎｆｉｎｉｓｈｅｄＡｃｔ；

–｛ａｃｔ｝；｝｝

在上面的算法描述中，Ｌ１把所有的活动都放在ｕｎｆｉｎｉｓｈｅｄ数组

ETL工作流活动优先级的确定及并行实现(3).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印

下载这篇word文档

上一篇：安全监控系统管理制度

下一篇：湖南高望界自然保护区蝗虫类昆虫的物种多样性

相

关

文

章

分类导航

幼儿教育小学教育初中教育教学研究专业资料资格考试教育文库外语考试高等教育求职职场高中教育实用文档

ETL工作流活动优先级的确定及并行实现(3)

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签

ETL工作流活动优先级的确定及并行实现(3)

推荐阅读

分类导航

今日头条

每日精选

猜你喜欢

精彩图片

热门标签