标题:请教处理大量数据查重的思路和方法
只看楼主
ictest
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:325
专家分:114
注 册:2010-2-17
结帖率:69.81%
已结贴  问题点数:20 回复次数:2 
请教处理大量数据查重的思路和方法
情况说明:
1、一个文件,内有1亿N千万行数据,每行数据为24个字符,这24个字符的字符串组成无规则,1亿N千万行数据无规则排列,需要在这1亿N千万行数据中查找是否有重复的字符串;
2、这单个文件查重完毕后,如果没有重复,与历史N个文件(文件内容格式与条目数同第一条的单个文件)再进行查重,如果没有重复条目,将这个单个文件归于历史文件,等待用于下一个单个文件进行查重。

目前我是这样做的:
1、将这1亿N千万行数据导入空白数据库,进行查重;
2、如果没有重复条目,再将这1亿N千万行数据写入已有历史数据的数据库(先将已有历史数据的数据库另存为新文件),然后进行查重;如果有重复,Msgbox提醒,删除新写入数据的历史数据库,将另存为新文件的历史数据库,改回原文件名;如果没有重复,删除另存为新文件的历史数据库,保留新写入数据的历史数据库。

目前我用的是MDB数据库,单个文件查重不是太慢,但是导入数据库需要不少时间,而且历史数据库每次都导入1亿N千万条数据,很快就会几亿甚至数十亿条、百亿数据的规模,再进行查重,我没试过,估计不会太快,而且运行软件的计算机硬件估计也要很高配置吧?

除去我现在用的这个方法,还有更快并且要求配置不高的方法么,求各位前辈高人赐教。
搜索更多相关主题的帖子: 数据库 数据 文件 历史 行数 
2023-05-17 00:50
cwa9958
Rank: 10Rank: 10Rank: 10
等 级:贵宾
威 望:67
帖 子:247
专家分:1228
注 册:2006-6-25
得分:20 
恩恩,你原始的文件是什么格式的文件?
2023-05-17 07:53
ictest
Rank: 3Rank: 3
等 级:论坛游侠
帖 子:325
专家分:114
注 册:2010-2-17
得分:0 
以下是引用cwa9958在2023-5-17 07:53:54的发言:

恩恩,你原始的文件是什么格式的文件?

TXT格式
2023-05-17 08:11



参与讨论请移步原网站贴子:https://bbs.bccn.net/thread-512216-1-1.html




关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.049929 second(s), 7 queries.
Copyright©2004-2024, BCCN.NET, All Rights Reserved