一尘不染

如何将html文件的转储索引到elasticsearch?

elasticsearch

我对Elastic完全陌生,所以我的知识仅来自Elasticsearch网站,我需要帮助。我的任务是将html格式的大行数据索引到elasticsearch中。我已经抓取了数据并将其存储在磁盘上(200
000个html文件)。我的问题是将所有HTML文件编入elasticsearch的最简单方法是什么?我应该为每个文件手动做出弹性请求吗?例如:

curl -XPUT 'http://localhost:9200/registers/tomas/1' -d '{
    "user" : "tomasko",
    "post_date" : "2009-11-15T14:12:12",
    "field 1" : "field data"
    "field 2" : "field 2 data"
}'

第二个问题是我是否必须解析HTML文档以像示例代码中那样为JSON字段1检索数据?

最后,在建立索引之后我可以删除所有HTML文档吗?谢谢大家


阅读 276

收藏
2020-06-22

共1个答案

一尘不染

我将查看批量API,该API可让您在单个请求中发送多个文档,以加快索引编制过程。您可以发送10、20或更多的文档,具体取决于文档的大小。

根据您要索引的内容,您可能需要解析html,除非您希望将整个html索引为单个字段(在这种情况下,您可能希望使用html strip
char过滤器
从索引中删除html标签。文本)。

索引后,我建议确保映射正确无误,您可以找到想要的内容。您始终可以使用Elasticsearch存储在幕后的_source特殊字段来重新索引,但是如果您已经编写了索引器代码,则可能需要在需要时再次使用它来重新索引(当然使用相同的html文档)。在实践中,您永远不会对数据进行一次索引…因此,请小心:)即使elasticsearch总是通过_source字段为您提供帮助),这只是查询现有索引并将其所有文档重新索引到另一个索引上的问题。

2020-06-22