我正在处理一些XML,其中包含以下字符串:
<node>This is a string</node>
有的,我传递给各节点的字符串将有字符,如&,#,$,等:
&
#
$
<node>This is a string & so is this</node>
由于,此无效&。
我无法将这些字符串包装在CDATA中,因为它们必须保持原样。我试图寻找一个字符列表,这些字符如果不包含在CDATA中就不能放入XML节点中。
有人可以指出我的方向或向我提供一系列非法字符吗?
唯一的非法字符&,<并且>(和"或'在属性)。
<
>
"
'
他们使用XML实体进行了转义,在这种情况下,您想要的&是&。
&
但是,实际上,您应该使用为您编写XML并为您抽象化此类内容的工具或库,这样您就不必担心它了。
XML
好,让我们分开以下字符的问题:
在任何XML文档中都无效。 需要逃脱。 @dolmen在“什么是XML无效字符”中提供的答案仍然有效,但需要使用XML 1.1规范进行更新。
1.无效字符 此处描述的字符是允许在XML文档中插入的所有字符。
1.1。在XML 1.0中 参考:请参阅XML建议1.0,§2.2字符 允许的字符的全局列表是:
[2] Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */
基本上,控制字符和超出Unicode范围的字符都是不允许的。这也意味着禁止调用例如字符实体。
1.2。在XML 1.1中 参考:请参阅XML建议1.1,§2.2字符和1.3的基本原理以及XML 1.1的更改列表 允许的字符的全局列表是:
[2] Char ::= [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF] /* any Unicode character, excluding the surrogate blocks, FFFE, and FFFF. */ [2a] RestrictedChar ::= [#x1-#x8] | [#xB-#xC] | [#xE-#x1F] | [#x7F-#x84] | [#x86-#x9F]
XML建议的此修订版扩展了允许的字符,因此允许使用控制字符,并考虑了Unicode标准的新修订版,但仍不允许使用以下那些:NUL(x00),xFFFE,xFFFF …
但是,不建议使用控制字符和未定义的Unicode字符。
还应注意,并非所有解析器都将其考虑在内,带有控制字符的XML文档可能会被拒绝。
2.需要转义的字符(以获得格式正确的文档):
在<必须使用转义<实体,因为它被认为是一个标签的开始。
<
在&必须使用转义&实体,因为它被认为是开始时的实体引用
该>应进行转义>实体。它不是强制性的-它取决于上下文-但强烈建议您对其进行转义。
>
本’应该用转义'实体-在单引号内定义的属性强制性的,但它强烈建议总是逃避它。
&apos
本”应该用转义"实体-在双引号内定义的属性强制性的,但它强烈建议总是逃避它。
"