一尘不染

将efficient/elegant way to parse a flat table into a tree?

algorithm

假设您有一个存储有序树层次结构的平面表:

Id   Name         ParentId   Order
 1   'Node 1'            0      10
 2   'Node 1.1'          1      10
 3   'Node 2'            0      20
 4   'Node 1.1.1'        2      10
 5   'Node 2.1'          3      10
 6   'Node 1.2'          1      20

这是一个图,我们在这里[id] Name。根节点0是虚构的。

                       [0] ROOT
                          /    \ 
              [1] Node 1          [3] Node 2
              /       \                   \
    [2] Node 1.1     [6] Node 1.2      [5] Node 2.1
          /          
 [4] Node 1.1.1

您将使用哪种简约方法将其作为正确排序,正确缩进的树输出到HTML(就此而言,还是文本)?

进一步假设您只有基本的数据结构(数组和哈希图),没有带有父/子引用的奇特对象,没有ORM,没有框架,只有两只手。该表表示为结果集,可以随机访问。

可以使用伪代码或简单的英语,这纯粹是一个概念性问题。

额外的问题:是否有一种从根本上更好的方法将这样的树结构存储在RDBMS中?


编辑和添加

要回答一个评论者的问题:根节点不是必需的,因为它永远不会显示。ParentId =
0是表示“这些是顶级”的约定。Order列定义了具有相同父代的节点的排序方式。

我所说的“结果集”可以图片为一个哈希表数组(保留在该术语中)。对于我的示例,本应已经存在。一些答案需要付出额外的努力,然后再进行构建,但这没关系。

这棵树可以任意深。每个节点可以有N个子节点。不过,我并没有真正想到“成千上万的条目”树。

不要将我对节点命名(“节点1.1.1”)的选择误认为是要依赖的东西。这些节点也可以被称为“ Frank”或“
Bob”,不暗示任何命名结构,这仅仅是为了使其可读。

我已经发布了自己的解决方案,因此你们可以将它分解成碎片。


阅读 201

收藏
2020-07-28

共1个答案

一尘不染

WITH RECURSIVE MyTree AS (
SELECT * FROM MyTable WHERE ParentId IS NULL
UNION ALL
SELECT m.* FROM MyTABLE AS m JOIN MyTree AS t ON m.ParentId = t.Id
)
SELECT * FROM MyTree;

我在2017年的演讲Recursive Query
Throwdown
中测试了MySQL8.0中的递归查询

以下是我从2008年起的原始答案:


有几种方法可以在关系数据库中存储树状结构的数据。您在示例中显示的内容使用两种方法:

  • 邻接列表 (“父”列)和
  • 路径枚举 (名称列中的点号)。

另一个解决方案称为 嵌套集 ,它也可以存储在同一表中。有关这些设计的更多信息,请阅读Joe Celko撰写的 “ SQL forSmarties中的树和层次结构”。

我通常更喜欢一种称为“ 闭合表” (又称“邻接关系”)的设计来存储树状结构的数据。它需要另一个表,但是查询树很容易。

在我的演示文稿“ 使用SQL和PHP的分层数据模型”以及《SQL反模式:避免数据库编程的陷阱》一书中,我介绍了闭包表。

CREATE TABLE ClosureTable (
  ancestor_id   INT NOT NULL REFERENCES FlatTable(id),
  descendant_id INT NOT NULL REFERENCES FlatTable(id),
  PRIMARY KEY (ancestor_id, descendant_id)
);

将所有路径存储在“关闭表”中,其中从一个节点到另一个节点都有直接的祖先。为每个节点添加一行以引用自身。例如,使用您在问题中显示的数据集:

INSERT INTO ClosureTable (ancestor_id, descendant_id) VALUES
  (1,1), (1,2), (1,4), (1,6),
  (2,2), (2,4),
  (3,3), (3,5),
  (4,4),
  (5,5),
  (6,6);

现在您可以像这样从节点1开始获得一棵树:

SELECT f.* 
FROM FlatTable f 
  JOIN ClosureTable a ON (f.id = a.descendant_id)
WHERE a.ancestor_id = 1;

输出(在MySQL客户端中)如下所示:

+----+
| id |
+----+
|  1 | 
|  2 | 
|  4 | 
|  6 | 
+----+

换句话说,将节点3和5排除在外,因为它们是单独层次结构的一部分,而不是从节点1派生而来。


回复:e-satis对直系子女(或直系父母)的评论。您可以在中添加一个“
path_length”列,ClosureTable以便更轻松地专门查询直系子代或父代(或任何其他距离)。

INSERT INTO ClosureTable (ancestor_id, descendant_id, path_length) VALUES
  (1,1,0), (1,2,1), (1,4,2), (1,6,1),
  (2,2,0), (2,4,1),
  (3,3,0), (3,5,1),
  (4,4,0),
  (5,5,0),
  (6,6,0);

然后,您可以在搜索中添加一个词以查询给定节点的直接子代。这些是后代,他们path_length是1。

SELECT f.* 
FROM FlatTable f 
  JOIN ClosureTable a ON (f.id = a.descendant_id)
WHERE a.ancestor_id = 1
  AND path_length = 1;

+----+
| id |
+----+
|  2 | 
|  6 | 
+----+

对@ashraf的评论:“如何按名称对整棵树进行排序?”

这是一个查询示例,该查询返回作为节点1的后代的所有节点,将它们连接到包含其他节点属性(例如)的FlatTable并按name名称排序。

SELECT f.name
FROM FlatTable f 
JOIN ClosureTable a ON (f.id = a.descendant_id)
WHERE a.ancestor_id = 1
ORDER BY f.name;

来自@Nate的评论:

SELECT f.name, GROUP_CONCAT(b.ancestor_id order by b.path_length desc) AS breadcrumbs
FROM FlatTable f 
JOIN ClosureTable a ON (f.id = a.descendant_id) 
JOIN ClosureTable b ON (b.descendant_id = a.descendant_id) 
WHERE a.ancestor_id = 1 
GROUP BY a.descendant_id 
ORDER BY f.name

+------------+-------------+
| name       | breadcrumbs |
+------------+-------------+
| Node 1     | 1           |
| Node 1.1   | 1,2         |
| Node 1.1.1 | 1,2,4       |
| Node 1.2   | 1,6         |
+------------+-------------+

一位用户今天建议进行修改。SO版主批准了该编辑,但我撤消了它。

修改建议上面的最后一个查询中的ORDER BY应该为ORDER BY b.path_length, f.name,以确保顺序与层次结构匹配。但这是行不通的,因为它将在“节点1.2”之后对“节点1.1.1”进行排序。

2020-07-28