SELECT DISTINCT a.*, b.* FROM current_tbl a LEFT JOIN import_tbl b ON ( a.user_id = b.user_id OR ( a.f_name||' '||a.l_name = b.f_name||' '||b.l_name) )
我发现可以通过匹配user_id名字或姓氏/名字来获得最多的数据。我' '在名称之间使用来避免出现这样的情况:一个用户的名字与另一个人的姓氏相同,并且两个用户都漏掉了另一个字段(不太可能,但看起来很合理)。
user_id
' '
该查询的运行时间为33000毫秒,而个性化查询则分别为200毫秒。
UNION
请不要要求执行计划。
如果人们的建议没有显着提高速度,则您的真正问题很可能是,针对两种可能的联接条件的最佳查询计划是不同的。对于这种情况,您可能要执行两个查询并以某种方式合并结果。这可能会使您的查询变得非常丑陋。
我在这种情况下使用的一个晦涩的技巧是在UNION ALL查询的基础上执行GROUP BY。这个主意看起来像这样:
SELECT a_field1, a_field2, ... MAX(b_field1) as b_field1, MAX(b_field2) as b_field2, ... FROM ( SELECT a.field_1 as a_field1, ..., b.field1 as b_field1, ... FROM current_tbl a LEFT JOIN import_tbl b ON a.user_id = b.user_id UNION ALL SELECT a.field_1 as a_field1, ..., b.field1 as b_field1, ... FROM current_tbl a LEFT JOIN import_tbl b ON a.f_name = b.f_name AND a.l_name = b.l_name ) GROUP BY a_field1, a_field2, ...
现在,数据库可以使用最有效的计划来执行两个联接中的每个联接。
(警告这种方法的缺点。如果current_tbl中的行与import_tbl中的多行联接,那么您将以非常奇怪的方式合并数据。)
附带的随机性能提示。除非您有理由相信可能存在重复的行,否则请避免使用DISTINCT。它强制使用隐式的GROUP BY,这可能会很昂贵。