级别: 初级 Naga Ayachitula (Arun), 高级软件工程师, 媒介资产管理开发 IBM Watson 研究中心 Hawthorne, New York Michael S. Schwartz, 高级软件工程师, 媒介资产管理开发 IBM Watson 研究中心 Hawthorne, New York
2003 年 8 月 01 日 本文展示了 DB2 Content Manager 和 DB2 Content Manager OnDemand 的补充数据模型和功能性,并展示了如果通过同时使用这两个产品解决一些用例场景。
简介
在本文中,我们将描述最新版本的 IBM® DB2® Content Manager (CM)
和 IBM DB2 Content Manager OnDemand (CM OnDemand)
的优点和适用范围。首先我们描述 CM 和 CM
OnDemand
的数据模型,然后针对每种数据模型展示一个例子,以便让读者明白每种模型的优点。因为这两种产品都有其核心强项,所以并不是所有的内容管理问题都能在一种产品里面得到解决。最后,我们将描述一个企业内容管理场景,其中 CM
和 CM OnDemand
可以一起工作以满足该场景的需求。
IBM DB2 Content Manager 和 IBM DB2 Content Manager OnDemand 概述
DB2 Content Manager 是 IBM
用于企业内容管理的解决方案的核心,它为管理、共享、重用和检索各种类型的数字内容提供了一个单独的、开放的和综合性的平台。这一分布式架构的中间层提供了:
- 从单个部门到地理上分散的企业的可伸缩性。
- 支持多种操作系统、数据库、应用程序和资源的开放性。
- 支持 XML 的数据模型。
- 关键任务(mission critical)应用程序与像 Siebel、PeopleSoft、DB2 Records Manager、WebSphere® MQ Workflow 以及 WebSphere Portal
这样的中间件的集成,从而提供 Web 内容管理。
IBM DB2 Content Manager OnDemand
是企业内容管理中间件的 Content Manager 解决方案的一部分。自动捕获、具有立即可用性的强大索引以及对帐单、对账单和票据的即时访问为客户服务提供了支持,并改善了操作。高级功能包括 CD-ROM
发布和 PDF
索引。电子对账单呈现功能则为提高呼叫中心工作效率和允许客户通过
Internet 进行自助服务提供了支持。
理解 DB2 Content Manager
本节描述了 DB2 Content Manager
数据模型,指出了它的一些优势和局限性。
DB2 CM 数据模型
图
1
显示了 DB2 CM 所使用的数据模型。
图 1. 数据模型
DB2 CM
数据模型是一种面向对象的关系数据模型。一个 Item 类型由多个条目组成,这些条目都有被指定的相关的属性。Item 类型是数据模型的主要组件,它包含了所有的子组件(如果有的话),以及相关的数据。一个
Item 类型有:
- 一个根组件 - 分级 item 类型的第一级,或者仅有的一级。
- 0 个或者多个子组件 - 分级 item
类型的第二级,或者更低级,这是可选的。
- 类别 - 有两种系统定义的 item 类型:
- 非资源 item 类型 - 表示没有存储在资源管理器上的实体。被划分为 item
类的条目被当作元数据存储在库服务器(library server)上。
- 资源 item 类型 - 表示存储在资源管理器中的对象。这些条目都是描述和指向资源管理器上的内容,例如视频、图像、文件和其他数据。
动态数据对象(DDO)表示在数据体系结构中的组件(根组件、子组件和资源组件)。持久数据标识符可以惟一地标识这些对象,这些对象以数据条目作为其属性值,并且包含了内容。每个数据条目都有一个数据标识符,一个名称,一个值和一些属性(例如可以为空,数据类型,等等)。链接,或者引用,是由数据条目表示的,每个数据条目引用另一个条目类型中的另一个条目(资源或非资源)。链接将两个条目关联起来,并提供了访问被链接条目的途径。链接关系有一个名称,一个标识符,例如 "contains"
或者 "has"。只有条目的根组件才可以链接到其他条目或者被其他条目链接。"Outbound(出站)"
链接是指以该条目作为源的链接。"Inbound(入站)"
链接是指以该条目作为目标的链接。
DB2 Content Manager 的优势
DB2 Content Manager 的一些主要优势包括:
-
集成了文本搜索的查询语言- 用于查询 CM 数据模型的所有细节。因为系统表的复杂性是完全透明的,所以这种查询语言非常易于使用。缓存的数据模型定义能够允许系统高效地执行查询。这种查询语言中还集成了基于
DB2 Net Search Extender 的文本搜索,因此它支持全文搜索,组合的文本搜索以及基于索引的搜索。任意长度的属性,例如一个文档的摘要,都可使用这种查询语言进行检索,而且还可以进一步对这些属性进行搜索以便找到文本中的任意单词或者单词组合,这可以通过对文本类型的元数据或者文本内容进行全文搜索来做到。如果条目类型被定义为全文索引,那么装载到这种条目中的文本文档将自动地被建立全文索引。而且,如果一个文档是通过 ODMA 接口存储的,那么 DB2 CM
将自动地建立一个全文索引。这种查询语言还遵从 XQuery
路径表达式(XQPE)规范。
-
联邦搜索- DB2 Information Integrator for Content
提供了对跨多个离散的数据源信息的联邦搜索和更新,这些信息可以是结构化的,也可以是非结构化的。任何类型的不同目标数据源都可以以任何组合轻松地进行配置。还可以添加和搜索新的数据源。不管数据源是什么格式,从一个联邦搜索得到的结果都是一种固定的数据格式(从技术上讲叫做动态数据对象)。
-
对视频资产的支持- 视频流资产 API
提供了对检索归档的和流化的视频的支持。由于视频流对象的内容一般比较大,像添加、检索和更新这样的持久操作通常是通过 IBM VideoCharger Server
或者第三方的视频服务器来完成,这种第三方的视频服务器使用的是像文件传输协议(FTP)这样的标准协议。根据相关的元数据,可以搜索视频资产,并建立会话以便将内容从视频服务器通过流直接送到视频播放器。该 API 还能支持
Multi-Segment 播放列表。
-
工作流- Document routing
提供了沿预定义的流程路由工作的集成能力。流程定义了用户执行工作的方式以及工作前进时所依的路线。不同的路由方式包括:
-
连续的- 连续的步骤流。
-
分支的- 根据用户行为有条件地路由。
-
临时路由- 工作不是按照预定义的方式执行的。
为了提高效率,分析随时间变化的工作负荷,或者为了查看某一特定条目的整个历史,可以对工作流进行监视。
-
与遗留系统和垂直工业应用程序的集成 - DB2 CM
提供了一套开放的、发布的、一致的面向对象
API,以便于应用程序集成。这使得连接和支持像客户关系管理(Customer Relationship
Management)、企业资源计划(Enterprise Resource Planning)、Web
应用程序以及遗留系统应用程序这样的应用程序成为可能。
DB2 Content Manager 的局限性
通常,DB2 Content Manager
本身并不提供对以下特性的支持:
-
来自大型机的流数据。
-
内容的批量装载。CM
并不提供将内容装载到系统中的实用程序。您可以手动地从
CM 客户端获取文档或文件,也可以编写一个实用程序来成批地装载文档。
-
Microsoft® SQL Server。 CM 的确支持使用 IBM DB2® Universal Database
和 Oracle 作为它的内容仓库。不过,SQL Server
在这种环境下并不受支持。
理解 DB2 CM OnDemand
本节将描述 DB2 Content Manager 数据模型,
并指出这种数据模型的优势及其局限性。
DB2 CM OnDemand 数据模型
图
2 显示了 DB2 CM
OnDemand 所使用的数据模型。
图 2. DB2 CM OnDemand 使用的数据模型
DB2 CM OnDemand Server
环境包含一个库服务器和一个或多个对象服务器,对象服务器驻留在一个或多个节点中。库服务器维护着关于存储在 DB2 CM
OnDemand
中的报告的一个中央数据库。对象服务器维护着缓存中的文档,或者利用归档存储管理器维护归档媒介(例如光媒介或磁带)上的文档。对象服务器负责装载数据、检索文档和输出数据。
术语
application、application group和
folder
表示 CM OnDemand
存储、管理、检索、查看和索引数据的方式。
- folder(文件夹)是用户查询和检索存储在 CM OnDemand
中的数据(报告)时所针对的惟一目标。如果这些应用程序组具有相同的数据库字段的话,一个文件夹可以查询不止一个的应用程序组。
- application group(应用程序组)是定义数据库、存储需求和报告的地方。如果这些应用程序具有相同的数据库和存储管理属性的话,一个应用程序组可以包含不止一个的应用程序。每个应用程序代表用于定义系统的一个报告。
- application(应用程序)描述一份报告的物理特征。您必需将应用程序指派给某个应用程序组。
DB2 Content Manager OnDemand 的优势
DB2 Content Manager OnDemand 的优势有:
-
使用 Xenos 转换流化输出的能力- 通过与 Xenos
转换的更紧密的集成,提供对一套范围广泛的打印数据流的支持。代价各异的、作为
IBM 提供的服务而被提供的转换包括:
- Metacode 到 AFP
- Metacode 到 PDF
- Metacode 到 Metacode (用于索引/捕获处理,这是为了保持本地
Metacode 格式)
- PCL 到 PDF
- AFP 到 PDF
这些转换是紧密集成的,这使得 DB2 Content Manager OnDemand
管理员可以轻松地通过 OnDemand
实用程序定义和捕获这些输出格式,以及当前支持的其他格式(AFP, Line
数据,PDF,等等)。能够捕获 Metacode PCL
数据流意味着拥有 Xerox
打印程序或业务应用程序(可以生成 PCL
输出)的客户可以从 Content Manager OnDemand Enterprise Report Management
系统获得许多好处。此外,这些转换还提供对 Xerox
打印数据流的转换,以使得这些数据流能够被捕获、索引、查看和通过
Internet
更容易地访问。这种解决方案首先获取以其本地格式存储的数据,然后动态地将其转换成电子内容(e-content)格式,例如
PDF、XML 和 HTML,以便于发布。
-
自动化数据装载- CM OnDemand 使用 ARSLOAD
程序自动地装载数据,创建索引数据和将数据装载到数据库和存储卷中。ARSLOAD
程序是 CM OnDemand 数据装载和索引的主程序。可以配置 ARSLOAD
程序,使其监视特定的文件系统,以便报告从其他系统下载过来的数据。如果数据需要被索引,那么
ARSLOAD 程序就调用在 OnDemand
应用程序中指定的索引程序。接着 ARSLOAD
程序利用数据库管理器将索引数据装载到数据库中,再利用存储管理器将报告数据和资源装载到存储卷上。
-
扩展了 OnDemand 的功能性的服务提供 -
- CD-ROM - Client Data Distribution (ad-hoc CD-ROM) 服务提供(service
offering)扩展了OnDemand
的功能性,用户可以从 OnDemand
服务器提取数据并将其写入易于发布的媒介中。这样其他用户就可以从
CD-ROM 访问 OnDemand 数据,这与访问存储在 OnDemand
服务器上的数据是一样的。ad-hoc CD-ROM 服务提供是为使用
OnDemand 客户机的终端用户所使用的低容量 ad-hoc CD-ROM
而设计的。
- CD-ROM - Production Data Distribution 服务提供支持大容量的 CD-ROM,支持对输入文件和文档的批处理,还支持对 CD-ROM
的多次拷贝。Production Data Distribution
服务提供是为批量数据处理以及按时间表发布大量报告而设计的。Production Data Distribution
服务提供是一种高度可伸缩的解决方案,它允许将用户定义的文件与
OnDemand 索引数据和文档放在一起使用。
- AFP2WEB Technologies 服务提供可以操作 AFP
数据和将其转换成多种不同的格式,以便于将数据装载到 OnDemand
中和在 Web 上显示 AFP 数据。这些服务提供与 OnDemand 和 OnDemand Web Enablement
Kit 是紧密集成在一起的。
- Kofax Ascent Capture Integration -
这是可选的特性,它独一无二地扩展了标准 Kofax Ascent
捕获功能和 OnDemand
归档功能。它支持高容量生产扫描操作,即扫描、提取索引数据,以一种能够存储在
OnDemand
中的格式保存文件,然后自动地将文档和索引数据装载到
OnDemand 中。
- SQL Server 支持 - 除了 DB2 UDB 和 Oracle 以外,CM OnDemand
还支持将 SQL Server 作为它的内容仓库。
DB2 CM OnDemand 的局限性
DB2 Content Manager OnDemand
没有提供对下列特性的支持:
-
灵活的索引模式。如果应用程序的可搜索字段多于固定模式所允许的字段,那么用户就会收到一些本不需要的搜索结果。一旦定义了一个带有索引模式的应用程序,用户就被限制在那个索引模式中。这样以后就不能添加或修改索引模式中的字段。
-
文本搜索。CM OnDemand
没有文本搜索功能,因为它不包含任何文本搜索引擎。只有对数据库的 SQL 查询才会被默认为可以使用文本搜索。
-
视频/音频。CM OnDemand 不能合并视频/音频归档文件,而且不支持检索和播放功能。
用例场景
我们来考虑一个场景,在这个场景中,CM
和 CM OnDemand 都适合需求。
XYZ Bank
有一些实用程序,这些实用程序为很多客户提供了范围广泛的服务,包括银行帐户、保险、贷款、佣金、抵押和风险资本等等。所有关于客户以及他的贷款或抵押等的信息都存储在一些可访问的媒介上。视频归档文件也要存储起来,以便用于与保险和风险资本需求相关的项目。每日交易中银行和个人支票的映像(images)也存储在可访问的媒介中。
银行的管理职员搜索并查看存储的客户信息,以便决定是否批准贷款或者监视客户活动的状态。这些过程通常是通过使用由银行业务流程定义的工作流来完成的。视频归档文件通常存储在一个中央仓库中,其他位置可以通过流来访问这些文件。
银行希望通过提供按需服务(service on
demand)来改善对客户的服务。目标是允许客户登录到自己的帐户,执行日常交易,并生成帐单报告,这样就减少了为提供服务而需设立的雇员和服务点的数量。银行可能已经分别为这些不同的需求部署了不同的解决方案。然而,因为当前的系统之间不具备互操作性,在需要时要集成内容就变得越来越困难。结果,企业就不得不为跟上信息集成的步伐或者寻求提供企业范围的功能性的解决方案而苦苦挣扎。
图
3
描述了这个银行用例场景。尽管这家银行有一个中央系统,它还是有一些不同的仓库,每个仓库都有不同的组织模式,维护时采用的技术流程也各不相同。银行的每个分点通过不同的方案与中央系统连接,这些方案分别针对一个银行事务的某一特定方面。
图 3. XYZ Bank 当前的使用多种不同仓库的用例场景
实现一个解决方案
图
4 显示了如何使用 Content Manager
产品实现上述用例场景。
DB2 Content Manager
可以将客户的帐户帐单、贷款、抵押、保险文档、支票映像等等进行归档。相关的视频剪辑存储在
DB2 Content Manager VideoCharger 中,通过 DB2 Content
Manager 来管理。
假设这家银行对居住在纽约的 Westchester
市的客户有有一个新的当地政策。那些拥有良好信用积分的客户符合增加信任额度的条件,因此应该通过一个客户邀请单通知他们这一点。银行职员可以用如下查询语句查询内容仓库:" Retrieve all customers who live in NY state, Westchester county who have a credit score more than 700 in their
report(检索居住在纽约的 Westchester
市、信用积分大于 700 的所有客户)"。当然,您可能会说那样的信息可以存储在某个数据库表中,并且在必要的时候对其进行查询。然而,应该注意的重要一点是,银行职员局限于一套用户查询信息的属性。而且还可以搜索归档的针对某个客户的文档,以获得能够满足随时间变化的业务政策的信息。
DB2 CM OnDemand
将由银行的遗留系统的流输出生成的周期性的帐户帐单归档。DB2 CM OnDemand
还可以扫描多种不同的客户文档,以便在使用一套定义好的属性(以后要在文档中查找这些属性)将索引文档之后可以对其归档、检索和搜索。
DB2 Content Manager
不能存储由银行的遗留系统的流输出生成的周期性帐户帐单。因此,银行职员必需将周期性的帐单存入 Content Manager
仓库。在上面的信用积分查询实例中,DB2 Content Manager
可以对存储的针对某个客户的文档执行全文搜索,并给出搜索结果。然而,它不能通过发送相应的预定义的邀请单来通知客户。
图 4. 用 DB2 Content Manage 产品实现的当前用例场景
我们可以清楚地看到,用例场景的一个部分可以通过使用 DB2 Content Manager
来解决,而另一个部分可以通过使用 DB2 CM
OnDemand
来解决。而且,在一个单独的查询中对 DB2 Content Manager
和 DB2 CM OnDemand
仓库进行联邦搜索时,还可以使用另一种名为
DB2 Information Integrator for Content 的产品。
结束语
IBM DB2 Content Manager 和 Content Manager OnDemand
为在企业范围的内容管理解决方案中处理多事务、高容量的内容提供了最先进的解决方案。然而,这两个产品都只是解决了企业内容管理问题域的一些不同的方面。随着对归档和检索源于不同企业用例场景的信息这一需求的增长,部署用于管理内容的 CM
和 CM OnDemand
解决方案可以解决许多企业用例场景。
附加信息
作者简介  | |  |
Naga Ayachitula (Arun) 是纽约霍桑市 IBM T.J. Watson
研究中心的高级软件工程师。他拥有计算机科学硕士学位。Naga
参与了媒体业的企业内容管理解决方案的开发。可以通过
nagaaka@us.ibm.com 与 Naga 联系。
|
 | |  |
Michael S. Schwartz 是纽约霍桑市 IBM
T.J. Watson 研究中心的高级软件工程师。他拥有数学博士学位。他的研究方向包括数据库系统、决策支持系统、多媒体系统以及财务系统。可以通过
miss@us.ibm.com 与 Michael 联系。
|
对本文的评价
|