MySQL 大批量插入,如何过滤掉重复数据?

MySQL 大批量插入,如何过滤掉重复数据?

在公司加班到八点,此为背景。

加班原因是上线,解决线上数据库存在重复数据的问题,发现了程序的bug,很好解决,有点问题的是,修正线上的重复数据。

线上库有6个表存在重复数据,其中2个表比较大,一个96万+、一个30万+,因为之前处理过相同的问题,就直接拿来了上次的Python去重脚本,脚本很简单,就是连接数据库,查出来重复数据,循环删除。

emmmm,但是这个效率嘛,实在是太低了,1秒一条,重复数据大约2万+,预估时间大约在8个小时左右。。。

盲目依靠前人的东西,而不去自己思考是有问题的!总去想之前怎么可以,现在怎么不行了,这也是有问题的!我发现,最近确实状态不太对,失去了探索和求知的欲望,今天算是一个警醒,颇有迷途知返的感觉。

言归正传,下面详细介绍去重步骤。

CREATE TABLE `animal` (
  `id` int(11NOT NULL AUTO_INCREMENT,
  `name` varchar(20DEFAULT NULL,
  `age` int(11DEFAULT NULL,
  PRIMARY KEY (`id`)
ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;


INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('1''cat''12');
INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('2''dog''13');
INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('3''camel''25');
INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('4''cat''32');
INSERT INTO `pilipa_dds`.`student` (`id``name``age`VALUES ('5''dog''42');

目标:我们要去掉name相同的数据。

先看看哪些数据重复了

SELECT name,count1 ) 
FROM
 student 
GROUP BY
NAME 
HAVING
 count1 ) > 1;

输出:

name count(1) cat 2 dog 2

name为cat和dog的数据重复了,每个重复的数据有两条;

Select * From 表 Where 重复字段 In (Select 重复字段 From 表 Group By 重复字段 Having Count(1)>1)

删除全部重复数据,一条不留

直接删除会报错

DELETE 
FROM
 student 
WHERE
 NAME IN (
 SELECT NAME 
 FROM
  student 
 GROUP BY
 NAME 
HAVING
 count1 ) > 1)

报错:

1093 – You can’t specify target table ‘student’ for update in FROM clause, Time: 0.016000s

原因是:更新这个表的同时又查询了这个表,查询这个表的同时又去更新了这个表,可以理解为死锁。mysql不支持这种更新查询同一张表的操作

解决办法:把要更新的几列数据查询出来做为一个第三方表,然后筛选更新。

DELETE 
FROM
 student 
WHERE
 NAME IN (
 SELECT
  t.NAME 
FROM
 ( SELECT NAME FROM student GROUP BY NAME HAVING count1 ) > 1 ) t)

删除表中删除重复数据,仅保留一条

在删除之前,我们可以先查一下,我们要删除的重复数据是啥样的

SELECT
 * 
FROM
 student 
WHERE
 id NOT IN (
 SELECT
  t.id 
 FROM
 ( SELECT MINid ) AS id FROM student GROUP BY `name` ) t 
 )

啥意思呢,就是先通过name分组,查出id最小的数据,这些数据就是我们要留下的火种,那么再查询出id不在这里面的,就是我们要删除的重复数据。另外,关注Java知音公众号,回复“后端面试”,送你一份面试题宝典!

开始删除重复数据,仅留一条

很简单,刚才的select换成delete即可

DELETE 
FROM
 student 
WHERE
 id NOT IN (
 SELECT
  t.id 
 FROM
 ( SELECT MINid ) AS id FROM student GROUP BY `name` ) t 
 )

90万+的表执行起来超级快。

All done 👏👏👏👏~

MySQL 大批量插入,如何过滤掉重复数据?

本篇文章来源于微信公众号:程序IT圈

原创文章,作者:software,如若转载,请注明出处:https://www.sldh123.com/3397.html

(0)
上一篇 8月 21, 2022 1:00 上午
下一篇 8月 23, 2022 1:00 上午

相关推荐

  • 架构师谈系统架构性能优化思路

    今天谈下业务系统性能问题分析诊断和性能优化方面的内容。这篇文章重点还是谈已经上线的业务系统后续出现性能问题后的问题诊断和优化重点。 系统性能问题分析流程 我们首先来分析下如果一个业…

    9月 24, 2022
    00
  • 大规模业务技术架构设计与战术

    点击关注下方公众号,架构师全套资料 都在这里 来源:胡斌,菜鸟网络技术专家,目前负责菜鸟风控系统的建设。 技术架构,是将产品需求转变为技术实现的过程。技术架构解决的问题包括了如何进…

    6月 23, 2022
    30
  • MySQL数据库成为瓶颈后,动态数据的查询要如何加速?

    作者:java码哥链接:https://www.jianshu.com/p/064c87b9824e 一般电商系统在完成DB主从分离和分库分表后,可支撑十几万DAU。 DB分了主库…

    9月 9, 2022
    00
  • 挑战大型系统的缓存设计,应对一致性问题

    在真实的业务场景中,我们业务的数据——例如订单、会员、支付等——都是持久化到数据库中的,因为数据库能有很好的事务保证、持久化保证。但是,正因为数据库要能够满足这么多优秀的功能特性,…

    8月 8, 2022
    101
  • 架构师浅谈服务治理与微服务

    作者:Heaven-Wang来源:blog.csdn.net/suifeng3051 近期都在谈微服务,本人也正在做相关的工作,应领导要求做了一个微服务的分享,本篇文章主要来源于分…

    9月 13, 2022
    30
  • 架构师必须清楚的支付系统:对账系统详解

    在支付系统中,资金对账在对账中心进行,将系统保存的账务流水与银行返回的清算流水和清算文件进行对账,核对系统账务数据与银行清算数据的一致性,保证支付机构各备付金银行账户每日的预计发生…

    7月 3, 2022
    30
  • 架构师应该遵守的编程原则

    程序员拥有一个较好的编程原则能使他的编程能力有大幅的提升,可以使其开发出维护性高、缺陷更少的代码。以下内容梳理自StactOverflow的一个问题:编程时你最先考虑的准则是什么?…

    架构师 9月 26, 2022
    00
  • 美团外卖即时物流的分布式系统架构设计

    背景 美团外卖已经发展了五年,即时物流探索也经历了3年多的时间,业务从零孵化到初具规模,在整个过程中积累了一些分布式高并发系统的建设经验。最主要的收获包括两点: 即时物流业务对故障…

    7月 12, 2022
    20
  • 12306抢票:极限高并发带来的思考

    每到节假日期间,一二线城市返乡、外出游玩的人们几乎都面临着一个问题:抢火车票!虽然现在大多数情况下都能订到票,但是放票瞬间即无票的场景,相信大家都深有体会。尤其是春节期间,大家不仅…

    7月 1, 2022
    30
  • 测试架构师必读:编码规范、开发技巧、架构画图

    本文转载至:测试开发技术订阅号 作为一名测试开发或者测试工程师来说,掌握程序设计、编程技能已经是基本要求了,但如果你想进阶更高的层次,或者你想成为一名合格的测试架构师,除了要掌握如…

    6月 20, 2022
    30

发表回复

您的电子邮箱地址不会被公开。