也就是说,每建立一个新数据档,就要针对所有现存的档案运行一次“去重复性”检验,目前这个数字已经超过了 5 亿。
前英特尔工程师 Srikanth Nadhamuni 于 2010 年 9 月帮助设计了 Aadhar 的技术平台,该平台目前在班加罗尔的 Khosla 实验室运行。他告诉我,这些数据包都经过 2048-bit 加密存储处理,一旦有未授权的调用尝试即触发自我销毁(self-destruction)功能。
有关针对 MongoDB 的批评
那么为什么 Aadhar 一开始要与 MongoDB 合作?这种合作关系是否会继续下去呢?
Aadhar 技术中心的助理总干事 Sudhir Narayana 表示,MongoDB 只是最初为数据检索所选择的几种产品之一,其他还包括 MySQL、Hadoop 和 HBase。与只能够存储人口数据的 MySQL 不同,MongoDB 还能够存储图像。
但是后来 Aadhar 逐渐将大部分数据库方面的工作转移到 MySQL 平台上,因为他们意识到 MongoDB 无法处理大规模的数据,也就是上百万的数据包裹。
目前他们已经在使用“数据库分片(database sharding)”技术:将数据包裹存储在不同的机器上,确保系统不会在数据量增加时崩溃。
这种做法帮助 Aadhar 减少了对于 MongoDB 的依赖,而改用 MySQL 存储大部分数据。
Aadhar 技术中心的副总干事 Ashok Dalwai 告诉我,MongoDB 无法调用任何生物识别数据。
“我们认为使用开源技术可以避免过分依赖某一供应商的情况,但是这不代表我们以任何方式在安全方面做出妥协。”Ashok Dalwai 这样说道。
MongoDB 方面的一位发言人在我们联系采访时,建议我们到该公司网站上阅读有关 In-Q-Tel 投资的声明文件。
更重要的是,印度唯一身份识别局(UIDAI)早在这家创业公司从 In-Q-Tel 获得投资之前就开始使用 MongoDB 的开源软件技术。Crunchbase 的数据显示,MongoDB 仅仅在 2012 年从红帽(Red Hat)、英特尔资本(Intel Capital)和 In-Q-Tel 三方募集了总共 770 万美元。
Aadhar 前景如何?
抛开所有的争议不谈,Aadhar 将于 2014 年完成录入超过 12 亿印度国民数据的目标,数据库总量将达到 15 petabytes。目前项目的进展速度是每天 100 万人,从明年开始将会实现每天大约 200 万人的速度,将剩下的 7 亿人纳入此数据库系统当中。