一尘不染

为什么在允许使用某些Unicode字符的注释中执行Java代码?

java

以下代码产生输出“ Hello World!”。(不,请尝试)。

public static void main(String... args) {

   // The comment below is not a typo.
   // \u000d System.out.println("Hello World!");
}

原因是Java编译器将Unicode字符解析\u000d为新行并转换为:

public static void main(String... args) {

   // The comment below is not a typo.
   //
   System.out.println("Hello World!");
}

因此导致评论被“执行”。

由于可以将其用于“隐藏”恶意代码或任何邪恶的程序员可以想到的内容, 因此为什么允许在注释中使用它

为什么Java规范允许这样做?


阅读 285

收藏
2020-09-08

共1个答案

一尘不染

Unicode解码发生在任何其他词汇翻译之前。这样做的主要好处是,它使得在ASCII和任何其他编码之间来回切换变得很简单。您甚至不需要弄清楚注释的开始和结束位置!

JLS第3.3节所述,这允许任何基于ASCII的工具来处理源文件:

[…]
Java编程语言指定了一种将Unicode编写的程序转换为ASCII的标准方法,该程序将程序更改为可以由基于ASCII的工具处理的形式。[…]

这为平台独立性(支持的字符集的独立性)提供了基本保证,而平台独立性一直是Java平台的主要目标。

能够在文件中的任何位置写入任何Unicode字符是一项很简洁的功能,在以非拉丁语言记录代码时,在注释中尤其重要。它会以这种微妙的方式干扰语义的事实只是(不幸的)副作用。

这个主题有很多陷阱,Joshua Bloch和Neal Gafter的 Java
Puzzlers
包括以下变体:

这是合法的Java程序吗?如果是这样,它将打印什么?

\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020\u0020
\u0063\u006c\u0061\u0073\u0073\u0020\u0055\u0067\u006c\u0079
\u007b\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020
\u0020\u0020\u0020\u0020\u0073\u0074\u0061\u0074\u0069\u0063
\u0076\u006f\u0069\u0064\u0020\u006d\u0061\u0069\u006e\u0028
\u0053\u0074\u0072\u0069\u006e\u0067\u005b\u005d\u0020\u0020
\u0020\u0020\u0020\u0020\u0061\u0072\u0067\u0073\u0029\u007b
\u0053\u0079\u0073\u0074\u0065\u006d\u002e\u006f\u0075\u0074
\u002e\u0070\u0072\u0069\u006e\u0074\u006c\u006e\u0028\u0020
\u0022\u0048\u0065\u006c\u006c\u006f\u0020\u0077\u0022\u002b
\u0022\u006f\u0072\u006c\u0064\u0022\u0029\u003b\u007d\u007d

(该程序原来是普通的“ Hello World”程序。)

在解决难题的方法中,他们指出了以下几点:

更严重的是,此难题有助于加强前三个方面的教训: 当您需要在程序中插入无法以任何其他方式表示的字符时,Unicode转义至关重要。
在所有其他情况下,请避免使用它们。


来源:Java:在注释中执行代码?

2020-09-08