IBM®
跳转到主要内容
    中国 [选择]    使用条款
 
 
Select a scope:Search for:    
    首页    产品    服务与解决方案     支持与下载    个性化服务    
跳转到主要内容

developerWorks 中国  >  XML  >

Thinking XML: 研读XML Hacks

一本 XML 用户手册的应用报告

developerWorks
文档选项

未显示需要 JavaScript 的文档选项


级别: 中级

Uche Ogbuji (uche.ogbuji@fourthought.com), 首席顾问, Fourthought, Inc.

2004 年 9 月 01 日

XML Hacks是一本介绍 XML 技巧和窍门的书籍。这是一本很有用的参考资料,其内容十分广泛,但如果某些材料能够进一步展开或者改写的话,可能会更好。Uche Ogbuji 提供了该书的应用报告。

上一期文章中,我评论了 Elliotte Rusty Harold 所著的 Effective XML,所有 XML 专业人员都应该读一读这本很棒的著作。在本期文章中,我把目光投向了另一本实用 XML 书籍,Michael Fitzgerald 编纂的 XML Hacks(O'Reilly and Associates,2004 年)。这本书涉及的范围很广,包括入门性的基础知识、中阶和高阶的设计与实现技术,以及一些工具的使用技巧。本专栏和其他 developerWorks文章的读者,可能更希望我能专注于 XML 设计和 XML 词汇表的问题。 XML Hacks论述更多的是实现细节和工具使用,但是这些知识也很重要,在本期文章中,我将介绍我自己应用书中内容的一些实际观察。与关于 Effective XML的文章一样,本文并不是书评,而是受该书启发想到的一些东西,本书是为不具备这些知识的读者编写的。

使用 XInclude 包含外部文本文档

在这本书的第 26 章“Include External Documents with XInclude”中,说明了如何以类似 XML 内置外部已解析实体的方式使用 XInclude(请参阅 Resources)。书中给出了一个示例文档,其中插入了由 HTTP URL 指定的外部 XML 文档。XInclude 确实为这种混合增加了为数不多的一些技巧,比如后退支持(出现错误时提供替代内容),以及处理程序发出 HTTP 请求时指定内容协商方式的机制。但是我认为与已解析实体机制相比,XInclude 的两个最主要优点是:

  • 能够使用 XPointer 从目标文档中选择要包含的部分。
  • 能够改变解析机制,将外部文档作为完全转移的文本文件而不是 XML 文档插入。

如果正在撰写包含代码清单或者示例的 XML 文档,第二点尤其方便。比方说,假设您撰写的文档中要包含清单 1 所示的 Python 语言代码。


清单 1. 作为清单插入 XML 文档的 Python 实例代码
def game_show(contestant_guess, prices):
    if prices[contestant_guess] < 1000:
        print "you win!"
    else:
        print "you lose!"
  

您应该在单独的文件中开发这些代码,这样,就可以在将它们放入文档之前对其进行测试,以确保它们能像您期望的那样工作。首先您可以把这些代码剪切并粘贴到 XML 文件中,如清单 2 所示。


清单 2. 直接剪切粘贴示例代码的插入文档
<?xml version='1.0' encoding='iso-8859-1'?>
<!DOCTYPE html PUBLIC
  "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US" xml:lang="en-US">
<head>
  <title>On-line game show programming in Python</title>
</head>
<body>
  <div class="section">
    <h3>A simple example</h3>
    <p>Examine the following code:
    </p>
    <div class="code-listing">
      <div class="caption">example 1</div>
<!-- paste Python code here -->
    </div>
  </div>
</body>
</html>
  

这样会造成错误,因为 if prices[contestant_guess] < 1000: 这一行包含没有转义的小于号(<)。您可以手工将它转义成 < ,但是这样做太麻烦,而且修改代码可能造成错误;然后您还需要修改外部文件和测试文件,最后修改粘贴的文件,并将其重新转义到您的文档中。一种解决方案是使用 CDATA 部分,如清单 3 所示,将代码直接粘贴到这个代码块,这样就不需要进行进一步的转义了。


清单 3. 通过剪切粘贴到 CDATA 节插入示例代码的文档
<?xml version='1.0' encoding='iso-8859-1'?>
<!DOCTYPE html PUBLIC
  "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US" xml:lang="en-US">
<head>
  <title>On-line game show programming in Python</title>
</head>
<body>
  <div class="section">
    <h3>A simple example</h3>
    <p>Examine the following code:
    </p>
    <div class="code-listing">
      <div class="caption">example 1</div>
<![CDATA[
<!-- paste Python code here -->
]]>
    </div>
  </div>
</body>
</html>
  

这种方法无疑能够避免了转义错误,但是您必须注意那些估计可能很少出现的字符串“]]>”,如清单 4 中所示。


清单 4. 作为清单插入 XML 文档的 Python 示例代码
def game_show(guesses, contestant, prices):
    if prices[guesses[contestant]]>1000:
        print "you win!"
    else:
        print "you lose!"
  

为了在 CDATA 部分中正确转义这一行,您至少需要像 if prices[guesses[contestant]]]]><![CDATA[>1000: 这样复杂的代码。还要注意的是,我使用的是 Python 代码,多数情况下,Python 需要转义的地方相对较少。如果编写的是关于 XML 的文档,手工转义可能就无法胜任了。而且出现“]]>”这个字符串组合的机会也多得多(比如 XML 清单可能本身包含 CDATA 部分)。

当然,您可以选择自己的方法绕开这个障碍,但是我发现,处理文章中所包含代码的最简单的方法就是使用 XInclude 的 parse="text" 功能。只要在 xi:include 元素中添加该属性,就能自动将代码作为 XML CDATA 解析,从而自动转义包含的内容。清单 5 就是以这种方式使用 XInlude 的一个例子:


清单 5. 使用文本行 XInclude 插入示例代码的文档
<?xml version='1.0' encoding='iso-8859-1'?>
<!DOCTYPE html PUBLIC
  "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US" xml:lang="en-US"
      xmlns:xi="http://www.w3.org/2001/XInclude"
>
<head>
  <title>On-line game show programming in Python</title>
</head>
<body>
  <div class="section">
    <h3>A simple example</h3>
    <p>Examine the following code:
    </p>
    <div class="code-listing">
      <div class="caption">example 1</div>
<xi:include href="gameshow1.py" parse="text" encoding="iso-8859-1"/>
    </div>
  </div>
</body>
</html>
  

xi:include 元素被替换为完全转义的 gameshow1.py (比如 清单 1)的内容,该文件是相对于元素的基 URL 进行解析的。感谢 parse="text" ,转义是自动完成的。我总是使用 encoding 属性(如果使用 parse="xml" ,偶尔可以忽略它)。在我的应用中,Python 文件通常使用“iso-8859-1”编码,而 XML 文件使用“utf-8”编码,当然,您的环境中可能使用不同的编码。

我在为 developerWorks(它要求作者以精心设计的 XML 格式提供文稿)撰写这些文章时,使用的就是已解析文本 XInclude 技术,并发现这样极大提高了编辑速度。

另一个注意事项是:该书使用的是当时正在开发之中的 XInclude 名称空间 http://www.w3.org/2003/XInclude ,但是现在,这个名称空间已经不存在了。在 2004 年 4 月 13 日发布的 Candidate Recommendation 中,W3C 工作组又回到了原来的名称空间 http://www.w3.org/2001/XInclude 。据我了解,多数工具只支持后一种(2001)名称空间形式,这可能是 W3C 决定回到原来的名称空间的原因,但这种名称空间的变化和撤销确实带来了一些混乱。该书作者就成了这种变化的无辜的牺牲品,我已经就此向出版商提供了一份刊误表。





回页首


更简单的恒等转换

第 37 章“Generate an XSLT Identity Stylesheet with Relaxer”讨论一种相当复杂的生成 恒等转换的方法,即输出和源文档等价的 XML 的 XSLT 转换。在以这种方法得到的转换中,对应词汇表中的每个元素都有一个模板,这的确很复杂。这样做可能是为了提供一个样本,以便用于创建更专门的转换,但我认为它没有给出一种简单得多的恒等转换,甚至 XSLT 规范中都作为例子给出了这样的一个转换。在后一章(38)“Pretty-Print XML Using a Generic Identity Stylesheet and Xalan”中,讨论了这种更简单的恒等转换,其中包括为了获得整齐的打印效果而经常采用的 <xsl:output method="xml" indent="yes"/> 。我建议您首先阅读第 38 章,熟悉简单的恒等转换之后,再来研究 37 章中那种复杂的方法。这样做的还有一种好处,理解这种简单的恒等变换是熟悉和掌握几种 XSLT 短语的关键,包括将源节点复制到输出中的 xsl:copy-of 与常见 XPath 节点测试的细微差别: *@*node()





回页首


不使用 XSLT 2.0 生成多个输出文档

第 45 章“Generate Multiple Output Documents with XSLT 2.0”讨论了如何使用 XSLT 2.0 xsl:result-document 在一次转换中序列化多个结果树。整章都写得不错,除了最后出现的一句:

如果您仍然在使用 XSLT 1.0,那么还可以生成多个结果文档,但是只能通过扩展特性做到这一点,而扩展特性随着处理程序的不同而不同。

这句话是不对的,这要感谢 EXSLT(请参阅 Resources),它是 XSLT 1.0 处理程序的标准扩展名集合。EXSLT 提供了 exsl:document 扩展,得到了一些比较流行的 XSLT 处理程序的支持。与 XSLT 2.0 中的等价机制相比,这种方法更简单,照我的观点来看,它更优美一些。(它源自 XSLT 2.0 Working Draft 早期草案中关于该特性的一个建议。)我不准备重复书中使用 exsl:document 的那个长例子。清单 6 是一个更简单的例子,这个转换将 XHTML 源文档中的每个段落元素都写入新的结果文档中。


清单 6. 将 XHTML 文档中所有段落元素写入结果文档的转换
<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0"
  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  xmlns:exsl="http://exslt.org/common"
  xmlns:html="http://www.w3.org/1999/xhtml"
  extension-element-prefixes="exsl">
  <xsl:template match="html:p">
    <exsl:document href="para-{generate-id()}.xml" method="xml" indent="yes">
        <xsl:copy-of select="."/>
    </exsl:document>
  </xsl:template>
</xsl:stylesheet>
  

exsl:document 元素很关键。它通知处理程序准备一个新的输出树,通常是创建一个新文件。 href 属性是一个资源名,它是根据扩展元素的基 URI 进行解析的。我使用 generate-id() 函数来确保创建的每个文件的名称都不会重复。 method="xml"indent="yes" 只是为 xsl:output 定义的普通属性,在这个扩展元素中,可以使用任何属性。

该书在第 58 章介绍了 EXSLT,“Use EXSLT Extensions”,但是要避免读者留下这样的印象已经太迟了:获得多个结果文档的惟一简便方法就是转向 XSLT 2.0。我建议您尽可能地坚持使用 XSLT 1.0,因为 XPath 2.0( XSLT 2.0 需要该标准)有一些不必要的复杂性。EXSLT 为 XSLT 1.0 用户提供了几乎所有 XSLT 2.0 中包含的有用功能,甚至更多。





回页首


结束语

XML Hacks是一本集合了一些方便的技巧和窍门的书籍。但它对一些特定工具似乎带有某种强烈地、不必要地偏爱,而且在某些地方,文字也不很通顺(对于多人合作的书籍,这并不鲜见),因此,很难看出某些章节的主旨是什么。本文尝试对书中不太清楚但非常重要的几个问题进行补充,在下一期文章中,我将继续进行更多地考察。



参考资料

  • 您可以参阅本文在 developerWorks 全球站点上的 英文原文

  • 请访问 XML Hacks 的主页,其中包括目录、可以免费在线阅读的 11 个样章、勘误表(撰写本文的时候还是空的,但我已经提交了关于 XInclude 名称空间升级的说明)。也可以从 developerWorks Developer Bookstore订购该书。

  • 看一看 XInclude规范(目前是 W3C Candidate Recommendation)—— 对作者来说,该规范还有点不太稳定,但是,因为它太有用了,这是不可避免的。Uche 有时候甚至建议将其作为一些词汇表的内置包含机制,比如 WSDLsdeveloperWorks,2004 年 1 月)。

  • 了解 EXSLT,它是 XSLT 和 XPath 1.0 的可移植扩展的一个极好集合。也可以阅读“ EXSLT 实例”( developerWorks,2003 年 2 月)中作者关于 EXSLT 的文章,来更多地研究 EXSLT。Uche 在本文中介绍了 exsl:document扩展。

  • developerWorksXML 专区 中,可以找到更多的 XML 资源,其中包括 Thinking XML专栏的 以前各期文章。如果您对本文有什么意见建议,请将意见提交到 the Thinking XML论坛

  • 了解如何才能成为一名 IBM 认证的 XML 及相关技术的开发人员


关于作者

Uche Ogbuji 的照片

Uche Ogbuji 是 Fourthought Inc.的顾问兼创始人,该公司是一家专为企业知识管理提供 XML 解决方案的软件供应商和咨询公司。 Fourthought 开发了 4Suite,这是一个用于 XML、RDF 和知识管理应用程序的开放源代码平台。Ogbuji 先生还是 VersaRDF 查询语言的首席开发人员。他是一位出生于尼日利亚的计算机工程师和作家,目前生活和工作在美国科罗拉多的博耳德。您可以通过 uche.ogbuji@fourthought.com和 Ogbuji 先生联系。




对本文的评价

太差! (1)
需提高 (2)
一般;尚可 (3)
好文章 (4)
真棒!(5)

建议?







回页首


IBM 公司保留在 developerWorks 网站上发表的内容的著作权。未经IBM公司或原始作者的书面明确许可,请勿转载。如果您希望转载,请通过 提交转载请求表单 联系我们的编辑团队。
    关于 IBM 隐私条约 联系 IBM 使用条款