一尘不染

Java的HTML / XML解析器

html

什么HTML解析器具有以下功能:

  • 快速
  • 线程安全
  • 可靠且无错误
  • 解析HTML和XML
  • 处理错误的HTML
  • 有一个DOM实现
  • 支持HTML4,JavaScript和CSS标签
  • 相对简单的面向对象的API

您认为哪种解析器更好?

谢谢。


阅读 292

收藏
2020-05-10

共1个答案

一尘不染

ApacheTika是最佳选择。Apache最近从现有项目中提取了许多子项目并将其公开。提卡(Tika)是其中之一,以前是Apache
Lucene的组件。由于Apache的支持和声誉以及广泛使用的父项目Lucene,它肯定是一个很好的选择。此外,它是开源的。

Apache Tika网站的简要介绍:

Apache Tika™工具箱使用现有的解析器库从各种文档中检测并提取元数据和结构化文本内容。

支持的格式有:

HyperText Markup Language
XML and derived formats
Microsoft Office document formats
OpenDocument Format
Portable Document Format
Electronic Publication Format
Rich Text Format
Compression and packaging formats
Text formats
Audio formats
Image formats
Video formats
Java class files and archives
The mbox format
2020-05-10