一尘不染

SQL:速度提高-cond1或cond2上的左联接

sql

SELECT DISTINCT  a.*, b.*
FROM             current_tbl a
LEFT JOIN        import_tbl  b 
                 ON ( a.user_id = b.user_id 
                   OR ( a.f_name||' '||a.l_name = b.f_name||' '||b.l_name)
                 )
  • 基本上相同的两个表
  • 我无权访问表结构或数据输入(因此无法清理主键)
  • 有时,user_id填充在一个而不是另一个中
  • 有时名字是相等的,有时它们是不相等的

我发现可以通过匹配user_id名字或姓氏/名字来获得最多的数据。我' '在名称之间使用来避免出现这样的情况:一个用户的名字与另一个人的姓氏相同,并且两个用户都漏掉了另一个字段(不太可能,但看起来很合理)。

该查询的运行时间为33000毫秒,而个性化查询则分别为200毫秒。

  • 我已经迟到了,现在无法直截了当
  • 我在想我可以做一个UNION并且只能按名称查询不存在user_id的名称(默认联接是user_id,如果user_id不存在,那么我想按名称联接)
  • 这是对任何想要帮助的人的免费积分

请不要要求执行计划。


阅读 198

收藏
2021-05-23

共1个答案

一尘不染

如果人们的建议没有显着提高速度,则您的真正问题很可能是,针对两种可能的联接条件的最佳查询计划是不同的。对于这种情况,您可能要执行两个查询并以某种方式合并结果。这可能会使您的查询变得非常丑陋。

我在这种情况下使用的一个晦涩的技巧是在UNION ALL查询的基础上执行GROUP BY。这个主意看起来像这样:

SELECT a_field1, a_field2, ...
  MAX(b_field1) as b_field1, MAX(b_field2) as b_field2, ...
FROM (
      SELECT a.field_1 as a_field1, ..., b.field1 as b_field1, ...
      FROM current_tbl a
        LEFT JOIN import_tbl b
          ON a.user_id = b.user_id
    UNION ALL
      SELECT a.field_1 as a_field1, ..., b.field1 as b_field1, ...
      FROM current_tbl a
        LEFT JOIN import_tbl b
          ON a.f_name = b.f_name AND a.l_name = b.l_name
  )
GROUP BY a_field1, a_field2, ...

现在,数据库可以使用最有效的计划来执行两个联接中的每个联接。

(警告这种方法的缺点。如果current_tbl中的行与import_tbl中的多行联接,那么您将以非常奇怪的方式合并数据。)

附带的随机性能提示。除非您有理由相信可能存在重复的行,否则请避免使用DISTINCT。它强制使用隐式的GROUP BY,这可能会很昂贵。

2021-05-23