一尘不染

什么是XML中的无效字符

xml

我正在处理一些XML,其中包含以下字符串:

<node>This is a string</node>

有的,我传递给各节点的字符串将有字符,如&#$,等:

<node>This is a string & so is this</node>

由于,此无效&

我无法将这些字符串包装在CDATA中,因为它们必须保持原样。我试图寻找一个字符列表,这些字符如果不包含在CDATA中就不能放入XML节点中。

有人可以指出我的方向或向我提供一系列非法字符吗?


阅读 752

收藏
2020-09-19

共2个答案

一尘不染

唯一的非法字符&<并且>(和"'在属性)。

他们使用XML实体进行了转义,在这种情况下,您想要的&amp;是&

但是,实际上,您应该使用为您编写XML并为您抽象化此类内容的工具或库,这样您就不必担心它了。

2020-09-19
一尘不染

好,让我们分开以下字符的问题:

在任何XML文档中都无效。
需要逃脱。
@dolmen在“什么是XML无效字符”中提供的答案仍然有效,但需要使用XML 1.1规范进行更新。

1.无效字符
此处描述的字符是允许在XML文档中插入的所有字符。

1.1。在XML 1.0中
参考:请参阅XML建议1.0,§2.2字符
允许的字符的全局列表是:

[2]    Char     ::=    #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]  /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */

基本上,控制字符和超出Unicode范围的字符都是不允许的。这也意味着禁止调用例如字符实体。

1.2。在XML 1.1中
参考:请参阅XML建议1.1,§2.2字符和1.3的基本原理以及XML 1.1的更改列表
允许的字符的全局列表是:

[2]    Char     ::=    [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */

[2a]     RestrictedChar     ::=    [#x1-#x8] | [#xB-#xC] | [#xE-#x1F] | [#x7F-#x84] | [#x86-#x9F]

XML建议的此修订版扩展了允许的字符,因此允许使用控制字符,并考虑了Unicode标准的新修订版,但仍不允许使用以下那些:NUL(x00),xFFFE,xFFFF …

但是,不建议使用控制字符和未定义的Unicode字符。

还应注意,并非所有解析器都将其考虑在内,带有控制字符的XML文档可能会被拒绝。

2.需要转义的字符(以获得格式正确的文档):

<必须使用转义&lt;实体,因为它被认为是一个标签的开始。

&必须使用转义&amp;实体,因为它被认为是开始时的实体引用

该>应进行转义&gt;实体。它不是强制性的-它取决于上下文-但强烈建议您对其进行转义。

本’应该用转义&apos;实体-在单引号内定义的属性强制性的,但它强烈建议总是逃避它。

本”应该用转义&quot;实体-在双引号内定义的属性强制性的,但它强烈建议总是逃避它。

2020-12-03