我已经在下面使用过一段时间了。至少在我访问过的网站上,它似乎是分布最广的。
在Java中,是否有更好/不同的方式将文件读取为字符串?
private String readFile(String file) throws IOException { BufferedReader reader = new BufferedReader(new FileReader (file)); String line = null; StringBuilder stringBuilder = new StringBuilder(); String ls = System.getProperty("line.separator"); try { while((line = reader.readLine()) != null) { stringBuilder.append(line); stringBuilder.append(ls); } return stringBuilder.toString(); } finally { reader.close(); } }
Java 11添加了readString()方法来读取小文件,以String保留行终止符:
readString()
String content = Files.readString(path, StandardCharsets.US_ASCII);
对于介于Java 7和11之间的版本,这是一个紧凑而健壮的习惯用法,它包装在实用程序方法中:
static String readFile(String path, Charset encoding) throws IOException { byte[] encoded = Files.readAllBytes(Paths.get(path)); return new String(encoded, encoding); }
Java 7添加了一种便捷方法,可以将文件读取为文本行(以表示)List<String>。这种方法是“有损的”,因为从每行的末端剥去了行分隔符。
List<String>
List<String> lines = Files.readAllLines(Paths.get(path), encoding);
Java 8添加了Files.lines()生成的方法Stream<String>。同样,此方法是有损的,因为剥去了行分隔符。如果IOException在读取文件时遇到,则会将其包装在中UncheckedIOException,因为Stream它不接受引发检查异常的lambda。
Files.lines()
Stream<String>
IOException
UncheckedIOException
try (Stream<String> lines = Files.lines(path, encoding)) { lines.forEach(System.out::println); }
这Stream确实需要close()打电话;这个在API上的文档很少,我怀疑很多人甚至没有注意到Stream有一个close()方法。确保使用如图所示的ARM模块。
如果使用的是文件以外的源,则可以改用lines()方法BufferedReader。
保留换行符的第一种方法可能临时需要占用文件大小几倍的内存,因为在短时间内,原始文件内容(字节数组)和解码后的字符(即使已编码也为16位) (文件中的8位)一次存储在内存中。将其应用于相对于可用内存较小的文件是最安全的。
第二种方法是读取行,通常可以提高内存效率,因为用于解码的输入字节缓冲区不需要包含整个文件。但是,它仍然不适用于相对于可用内存而言非常大的文件。
为了读取大文件,你需要为程序提供不同的设计,即从流中读取文本块,对其进行处理,然后再移至下一个,重新使用相同的固定大小的内存块。在此,“大”取决于计算机规格。如今,此阈值可能是许多GB的RAM。Stream<String>如果输入的“记录”恰好是单独的行,则使用a的第三种方法是一种方法。(使用的readLine()方法BufferedReader等效于此方法。)
readLine()
BufferedReader
原始帖子的示例中缺少的一件事是字符编码。在某些特殊情况下,平台默认值是你想要的,但是很少见,你应该可以证明自己的选择合理。
在StandardCharsets类中定义的所有Java运行时所需要的编码的一些常量:
StandardCharsets
String content = readFile("test.txt", StandardCharsets.UTF_8);
该平台默认可从该Charset类本身:
String content = readFile("test.txt", Charset.defaultCharset());