一尘不染

如何建立知识图?

algorithm

我使用可在计算机上运行的pagerank构造了一个小型搜索引擎的原型。我有兴趣在此基础上构建一个知识图,它只返回正确上下文内的查询网页,这与Google如何找到搜索问题的相关答案类似。我看到了很多关于知识图的宣传,但是没有太多的文献资料,而且几乎没有伪代码,如构建准则的指南。有谁知道关于这种知识图如何在内部工作的很好的参考,因此就不需要创建关于知识图的模型了吗?


阅读 220

收藏
2020-07-28

共1个答案

一尘不染

知识图是一个流行词。它是模型和技术的总和,以达到一定的效果。旅程的第一站是自然语言处理本体文本挖掘。它是人工智能的广阔领域,请转到此处进行该领域的研究调查。

在构建自己的模型之前,建议您使用专用工具箱(例如gensim)尝试不同的标准算法。您将了解tf-
idf,LDA,文档特征向量等。

我假设您要使用文本数据,如果要使用其他图像进行图像搜索,则有所不同。音频部分也一样。

建立模型只是第一步,Google知识图谱中最困难的部分是实际上每天要扩展到数十亿个请求…

可以在Apache Spark(当前的Hadoop)之上“
轻松”构建良好的处理管道。它提供了一个弹性的分布式数据存储,如果您要扩展,则必须执行此操作。

如果您希望按照图论(例如pagerank)的形式将数据保留为图,以便进行实时查询,建议您使用Bulbs,它是一种框架,“类似于图的ORM,但是使用SQL代替图遍历语言Gremlin来查询数据库”。例如,您可以将后端从Neo4j切换到OpenRDF(如果使用本体,则很有用)。

对于图形分析,可以使用Spark,GraphX模块或GraphLab

希望能帮助到你。

2020-07-28