以下代码产生输出“ Hello World!”。(不,请尝试)。
public static void main(String... args) { // The comment below is not a typo. // \u000d System.out.println("Hello World!"); }
原因是Java编译器将Unicode字符解析\u000d为新行并转换为:
\u000d
public static void main(String... args) { // The comment below is not a typo. // System.out.println("Hello World!"); }
因此导致评论被“执行”。
由于可以将其用于“隐藏”恶意代码或任何邪恶的程序员可以想到的内容, 因此为什么允许在注释中使用它 ?
为什么Java规范允许这样做?
Unicode解码发生在任何其他词汇翻译之前。这样做的主要好处是,它使得在ASCII和任何其他编码之间来回切换变得很简单。您甚至不需要弄清楚注释的开始和结束位置!
如JLS第3.3节所述,这允许任何基于ASCII的工具来处理源文件:
[…] Java编程语言指定了一种将Unicode编写的程序转换为ASCII的标准方法,该程序将程序更改为可以由基于ASCII的工具处理的形式。[…]
这为平台独立性(支持的字符集的独立性)提供了基本保证,而平台独立性一直是Java平台的主要目标。
能够在文件中的任何位置写入任何Unicode字符是一项很简洁的功能,在以非拉丁语言记录代码时,在注释中尤其重要。它会以这种微妙的方式干扰语义的事实只是(不幸的)副作用。
这个主题有很多陷阱,Joshua Bloch和Neal Gafter的 Java Puzzlers 包括以下变体:
这是合法的Java程序吗?如果是这样,它将打印什么? \u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020\u0020 \u0063\u006c\u0061\u0073\u0073\u0020\u0055\u0067\u006c\u0079 \u007b\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020 \u0020\u0020\u0020\u0020\u0073\u0074\u0061\u0074\u0069\u0063 \u0076\u006f\u0069\u0064\u0020\u006d\u0061\u0069\u006e\u0028 \u0053\u0074\u0072\u0069\u006e\u0067\u005b\u005d\u0020\u0020 \u0020\u0020\u0020\u0020\u0061\u0072\u0067\u0073\u0029\u007b \u0053\u0079\u0073\u0074\u0065\u006d\u002e\u006f\u0075\u0074 \u002e\u0070\u0072\u0069\u006e\u0074\u006c\u006e\u0028\u0020 \u0022\u0048\u0065\u006c\u006c\u006f\u0020\u0077\u0022\u002b \u0022\u006f\u0072\u006c\u0064\u0022\u0029\u003b\u007d\u007d
这是合法的Java程序吗?如果是这样,它将打印什么?
\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020\u0020 \u0063\u006c\u0061\u0073\u0073\u0020\u0055\u0067\u006c\u0079 \u007b\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020 \u0020\u0020\u0020\u0020\u0073\u0074\u0061\u0074\u0069\u0063 \u0076\u006f\u0069\u0064\u0020\u006d\u0061\u0069\u006e\u0028 \u0053\u0074\u0072\u0069\u006e\u0067\u005b\u005d\u0020\u0020 \u0020\u0020\u0020\u0020\u0061\u0072\u0067\u0073\u0029\u007b \u0053\u0079\u0073\u0074\u0065\u006d\u002e\u006f\u0075\u0074 \u002e\u0070\u0072\u0069\u006e\u0074\u006c\u006e\u0028\u0020 \u0022\u0048\u0065\u006c\u006c\u006f\u0020\u0077\u0022\u002b \u0022\u006f\u0072\u006c\u0064\u0022\u0029\u003b\u007d\u007d
(该程序原来是普通的“ Hello World”程序。)
在解决难题的方法中,他们指出了以下几点:
更严重的是,此难题有助于加强前三个方面的教训: 当您需要在程序中插入无法以任何其他方式表示的字符时,Unicode转义至关重要。 在所有其他情况下,请避免使用它们。
来源:Java:在注释中执行代码?