发布网友 发布时间:2022-04-19 11:39
我来回答
共1个回答
热心网友 时间:2022-04-15 05:48
数据清洗确实比较麻烦,但都是有工具可以使用的,设计好执行方法和流程,等结果即可。500万数据量不大,我不清楚你使用的方法,所以简单说一下:1.要设计好索引,非常影响执行效率,估计你的数据在离线数据库里,多尝试吧2.先把数据分组,就是你认为只保留最新日期的,然后逐个组数据处理入库3.数据可以放在内存,批量入库,减少读写次数,提高效率。加油,祝好运。望采纳。