Introduction

J'ai environ 52G de données concernant un site chinois, les données sont en formule suivante emial----pwd, le but est de consture un moteur de recherche plus efficace.

最近网上出现了一系列的数据泄漏事件,拿到了网易52G的数据,里面真真假假的,所以准备做一个查询帐号和密码的搜索引擎,为了方便起见,我决定使用 node.js 和noSql来解决这类问题。这样速度应该也会很快。

首先整理一下 数据,用Linux的命令 sort 来排序数据,然后配合uniq命令来进行去重操作,这样可以得到一份比较好分析的数据。 然后利用java写的多线程导入工具进行导入,这个过几天放出来吧。
待续。。。

Comments
Write a Comment