面试时被问到的一个问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

MySQL 5.5 Cmmunity Server

MySQL 5.6 Community Server

Percona Configuration Wizard

XtraBackup 搭建主从复制

Great Sites on MySQL

Percona

MySQL Performance Blog

Severalnines

推荐管理工具

Sequel Pro

phpMyAdmin

推荐书目

MySQL Cookbook

MySQL 相关项目

MariaDB

Drizzle

参考文档

http://mysql-python.sourceforge.net/MySQLdb.html

这是一个创建于 1178 天前的主题，其中的信息可能已经有所发展或是发生改变。

有两张比较大的表，如何判断两张表中是否有相同的数据，以及如何将他们找出来？
请问大家有什么思路吗？

请问

面试

思路

判断

14 条回复 2022-09-27 16:00:34 +08:00

GlobalNPC

2022-09-26 23:23:34 +08:00

如果只是 SQL 的话，这样？
select a. * from a join b on al=b1 and a2=b2 and a3=b3 ...;

Jooooooooo

2022-09-26 23:24:30 +08:00

如果只需要看有没有的话

考虑下布隆过滤器

F281M6Dh8DXpD1g2

2022-09-27 01:45:01 +08:00 via iPhone

union all 之后 group by 全字段 having count > 1

nnnneymarjr

2022-09-27 10:07:06 +08:00

@infun 我当时就是这么说的，面试官也没给反馈，感觉跟他心中的答案差的挺远的

mazhan465

&nsp;2022-09-27 10:32:01 +08:00

每条字段计算一遍 MD5 摘要保存到文件，然后排序，双指针比较，MD5 相同的加载对应行的数据进行验证比较

allforone

2022-09-27 11:00:51 +08:00

可能问的是 inner join 的具体实现？先确认一下是算法题还是 sql 题。算法题的话可能想考 sort merge join 或者 hash join 一些优化实现。

dog82

2022-09-27 11:14:28 +08:00

5 楼的思路很不错

lookStupiToForce

2022-09-27 11:15:36 +08:00

以 pgsql 为例，每行数据 hash 一下加上主键（单一主键或者联合主键都行）后再比较最好
如果下面的 sql 一次跑不出来，先分别生成两张表然后用那两张新表去做最后的 join 比对

with t1 as(
select f.primary_key,
md5(CAST((f.*) AS text)) as hash
from foo1 f
)
, t2 as(
select f.primary_key,
md5(CAST((f.*) AS text)) as hash
from foo2 f
)
select t1.primary_key
from t1 join t2 using (primary_key)
where t1.hash = t2.hash