IBM®
跳转到主要内容
    中国 [选择]    使用条款
 
 
Select a scope: Search for:    
    首页    产品    服务与解决方案     支持与下载    个性化服务    
跳转到主要内容

developerWorks 中国  >  Grid computing  >

网格观察: GGF 和网格数据

developerWorks
文档选项

未显示需要 JavaScript 的文档选项


级别: 初级

Thomas Myer (tom@tripledogdaremedia.com), 负责人

2004 年 1 月 01 日

全球网格论坛数据领域数据需求。

在本专栏的 前几期中,我介绍了全球网格论坛(Global Grid Forum,GGF)是什么,发展到了什么程度,在哪里可以阅读到重要的文档,怎样涉及到 GGF 的体系结构方面等等。更明确地说,我概述了 OGSA (Open Grid Services Architecture,开放网格服务体系结构)和 OGSI(Open Grid Services Infrastructure,开放网格服务基础设施)。

在那两个专栏里,我反复强调很多网格社团要达到的目标依然还只是一幅憧憬,尤其是 GGF。它似乎没有按部就班地前进着,但是发展得很好 -- 这只是表明研究者们及其他人正不停地找到更好更快的方式,使所有这些元素协同工作。

这个月,我们要绕开迄今为止在网格世界中发现的最大的难题。我们将快速浏览一下数据领域的问题,只要明白他们在做什么,有什么重要性。

那么需要对数据大量进行什么处理呢?


几乎所有业务流程都需要对共享数据进行可靠、快速的访问。在网格环境下(和其他大多数计算环境一样),数据必须可以发现、存储、抽象、转换、管理、整合、分布、发布和传输,必须是安全的,可恢复的和可查询的。

事实上,我能想到的不涉及数据的动词非常少。想像一下:数据隐含在所有的形状和大小中。数据可以存在于一个组织的很多地方,大到 Oracle 系统和 ERP/CRM 应用,小到 Excel 电子表格和桌面 PC 机的 Microsoft Access 数据库。数据同样以电子邮件、Word文档、XML 文件以及面向对象应用程序代码中的过渡数据包的形式存在。

这些数据库和文件存放在各种机器上,这些机器有着不同硬件和操作系统配置、不同文件系统结构、不同编码标准,以及其他难以计数的因素。不同类型的数据需要不同的方法来提取信息 -- 对于 Oracle 和其他很多数据库系统,您需要 SQL 或者 JDBC。而对 XML 文件来说,您则可能选择 XQuery 或者 Perl。

此外,很多时候我们把数据看作真正的信息或者有上下文语义,比如 XML 文件或者数据库的表。不可否认地,在某些罕见的情况下,我们的一些数据是真正的知识,或者表述了不同概念和信息领域之间的关系,比如信息的实体论和分类理论。换句话说,数据可以:

  • 相当简单(单个的整数)
  • 相当复杂(一个LDAP(轻量级目录访问协议)知识库)
  • 或者有很多材料在其中。

这表明什么呢?在您可以对数据做任何事情之前,您必须知道它在哪里,它是什么。那表示无论数据在哪里,您都必须有一个适当的元数据来精确地描述它 -- 并且这个系统可以跨越不同的平台。

您寻找的是一种足够灵活的精确描述模式,举例说明,在电子表格中的行和列,也和数据流一样,通过网格获得了处理。此外,您提出的任何模式,都必须足够灵活,可以和现有的元数据方案(比如通过 Dublin Core 节点的健壮的初始元数据)一起工作,并且不同使用者/规则的团体(比如数学、电子商务和其他)定义的任何元数据可以协同工作。

需要让它变得更有意义吗?您的元数据系统需要独立于任何您想放置数据的逻辑系统 -- 比如某个具体操作系统的文件命名规则。

识别操作中的一些过程,是把网格上的虚拟标识符映射成硬盘驱动器上的实际比特位。这里的关键点是,这是一个映射,而不是索引,因为索引意味着一些分级排列或实体排列,一个映射只是告诉您该去哪里。

等知道怎样识别数据以后,您最好准备好对付大批大批的数据了。实现网格项目的公司和研究机构在谈论处理 TB(1000GB)级别和 PB(1000TB)级别的数据的问题。为了处理这么多的数据,您不但要有足够的计算资源(您的网格要关心这个),而且要有胜任这些任务的数据应用。同时,要有处理那种类型流水线的网络带宽。

只有纯粹的强大处理能力是不够的,您还需要连续性 -- 不仅仅是“一直在,可用的,准备去做”,还要“嗨,我记得您,我先前只处理了您的 3 项工作,现在该第 4 个了!”

但是您所需要的不只是持续性,您开始瞄准了服务质量。如果一个使用者递交了一个数据分析的请求,网格要在一个安全的环境下,避免干扰,及时完成这个任务,同时保证所有需要达到的精确度。(虽然很明显,我最好还是注释一下,服务质量现在大概不只是优先级的意思 -- 规定的目标只是先得到所有工作需要的条件。)

我想在这里重复我的话,但是,有了服务质量还是不够的。您需要一个不断更新的数据视图。如果那些 XML 文件和数据库表被更新,删除,或者到处移动,那么网格应该知道它,并且更新它的那些实体的视图。否则,一个不能给出数据的正确视图的网格会是一个好的网格吗?

如果您构建一个可以统一访问企业计算资源上所有数据的网格,那么无所谓宣称做到安全。如果您把所有的鸡蛋都放进一个篮子里,那么最好看好这个篮子。因为我将在以后的专栏里讨论安全方面的问题,我们现在暂时撇下这个话题。





回页首


GGF 的数据领域能够做什么


正如您知道的,网格上有大量数据处理的请求。那么问题来了,GGF 的数据领域是怎样处理这些请求的呢?

对于数据,人们有一点是可以确信的:在网格上他们不能依赖过分简单的模式来获得和放置数据。一个由那么多分散着的不同系统组成的环境中,那种方法会无法工作。在任何给定的时间内,您可能需要从 SQL 表中提取出一行或多行,从一个二进制文件中读取一个字符串,或者从一个 XML 文档中捕获节点 -- 而不是引用、更新或者修改那些上面提到的实体。

数据领域提出的答案是数据虚拟化 -- 用 Data Service(数据服务)和 portTypes(端口类型)给分散数据提供单一的映像。如果回顾一下 前几期的专栏,portTypes 是 OGSA/OGSI 的一个重要难题。数据虚拟化非常重要,是因为它允许实际数据实体和他们在抽象层的表示之间做一个映射。举例说明,一个服务器分区的物理实体,可能在一个逻辑名称空间上,表现为对这个分区所有文件和文件夹的描述,并且封装好的接口允许您对这些文件和文件夹进行操作(复制、移动、删除、列出目录文件,等等)。

有 4 种不同的 portTypes,可以把它们看作是数据接口。它们是:

  • DataDescription(数据描述)定义虚拟数据的关键参数。
  • DataAccess(数据访问)提供一组访问或者修改虚拟数据的操作。
  • DataFactory(数据工厂)提供创建新的数据服务的操作。
  • DataManagement(数据管理)提供一组监控和管理虚拟数据的操作,在某些情况下,包括底层管理基础设施(例如关系数据库管理工具)。

每个这样的 portTypes 都专门应用于不同类型的虚拟化。比如,DataDescription 可以扩展为 RelationalDescription(用来描述相关的数据结构)或者 FileDescription(用来描述文件)。这些专门的接口都非常灵活,可以适应一定范围内的使用,从很一般性的(例如描述关系数据库)到非常特殊的(例如金融分析虚拟化)情况。

DataDescription 服务要建立 Service Data Elements(服务数据元素,SDE)。SDE 储存有关数据虚拟化的元数据和状态信息。这里的元数据包括如下信息:数据的产生者、产生时间、产生原因、摘要、时间戳,等等,甚至更多。SDE 还考虑到虚拟数据的自我更新和发掘。

所有这些操作的另一个重要问题是唯一标识到数据源连接的能力。例如,如果想列出一个远程目录上的某些文件,应该确保到那些文件(不论它们的文件名是什么)的连接有一个唯一的标识。请注意,我一直在强调“连接”。如果您来自 Web 开发领域,应该知道大量的页面可以连接到同一个数据源。网格也是这样。网格服务句柄(Grid Service Handle,GSH)和网格服务引用(Grid Service Reference,GSR)相结合,满足了需要唯一识别到某个数据源的连接的需求。

简而言之,一个网格数据服务( Grid Data Service)可以使用一个或多个专用的 portTypes(其他 OGSA 接口也一样),用于保存、访问并修改数据块的描述性元数据。在这个过程中,网格数据服务可以调用一个 Factory,使用 OGSI Agreement 的接口。最后生成的结果是一个可以处理任意复杂数据结构的灵活而健壮的方法。





回页首


数据工作组/研究小组


数据访问和整合服务(Data Access and Integration Services,DAIS-WG)


该小组不停地倡仪发展网格数据库服务的标准,主要集中在为现有的自主管理的数据库提供一致性访问。

GridFTP(GridFTP-WG)


该小组的的目标是生成很多适合网格应用的文件传输协议。

OGSA 复制服务工作组(OGSA Replication Services Working Group,OREP-WG)


OGSA 数据复制服务工作组(OREP-WG)试图为数据复制服务创建、审查和提炼网格服务规范。

数据格式描述语言(Data Format Description Language,DFDL-WG)


这个工作组的目标是定义一种基于 XML 的语言,即数据格式描述语言(DFDL),用于描述二进制文件、字符编码(ASCII/Unicode)文件和数据流等结构,这样它们的格式、结构和元数据可以公开出来。

IPv6 (IPv6-WG)


这个小组的目的是研究网格社区中与 IPv6 相关的所有问题,确保网格可以利用 IPv6 网络所提供的更大的寻址空间。

数据传输(Data Transport,DataTransport-RG)


这个组的目标是提供一个论坛,在论坛中汇集了在安全性,健壮性,广域的高速数据传输等一些感兴趣的问题,可以对相关技术问题进行讨论和整理,并开发确保协同执行的标准。

网格高性能联网(Grid High-Performance Networking,GHPN-RG)


网格高性能联网研究小组的研究重点在于网络研究、网格应用和基础设施发展之间的相互关系。

持久性档案(Persistent Archives,PA-RG)


网格论坛的持久性档案研究小组致力于促进持久性档案构造的架构的发展。这些持久性档案在概念上其实相当于虚拟数据网格。





回页首


结束语


我刚刚已经谈到了非常多的内容。如果有些内容看起来取得了很大发展、发生了很大变化或者有些令人费解,那么您可以对这些内容加以纠正。



参考资料



关于作者

Tom Meyer

Thomas Myer 是 Triple Dog Dare Media 的主要创始人之一,这是一家位于美国奥斯汀的公司,致力于构建 Web 服务、XML 和数据库应用程序。可以通过 tom@tripledogdaremedia.com 与他联系。




对本文的评价

太差! (1)
需提高 (2)
一般;尚可 (3)
好文章 (4)
真棒!(5)

建议?







回页首


IBM 公司保留在 developerWorks 网站上发表的内容的著作权。未经IBM公司或原始作者的书面明确许可,请勿转载。如果您希望转载,请通过 提交转载请求表单 联系我们的编辑团队。
    关于 IBM 隐私条约 联系 IBM 使用条款