说到大数据,是一个现在经常被提到的流行词汇,它包含了很多行业的很多领域。在业务分析中,大数据通常意味着使用从客户中获得的信息,销售预测、供应商和很多别的投入的信息,对业务做出最优决策,既包括短期的也包括长期的。大宗商品的交易员可能会用完全不同的方式使用大数据,也许他们会从气候数据中寻求分析,这需要查看卫星和相关文本信息的其它图像数据,来决定哪种交易适合长期或者短期。这些事例需要一套完全不同的分析工具,十分有效,且使用完全不同的计算类型和存储环境,作为将处理数据将它变成信息的算法是非常不同的。
最近,我和Jeff Layton在晚餐的时候会面,讨论了一些来自图表分析的不同类型的算法,到MapReduce,到图像变化监测,和其它的,以及一些框架,例如NOSQL和有效运行这些算法的系统架构。当然,有来自很多供应商和即将成为供应商的专业设备。所以大数据对我来说就是将数据变成信息的过程,然后再变成知识。
这不是一个新现象。这不是我的名言。大约400年前,Francis Bacon先生就说过“知识就是力量。”当我们从数据中提取越来越多的信息和知识时,我和Jeff相信系统架构将会有很大的变化。没有提取和分开档案的信息,你将不会有静态档案。
我和Jeff讨论了如何解决这个问题,什么类型的数据很重要以及如何移动到新计算时代。晚餐期间,我们通过两种不同的方向,自上而下和自下而上,想到了解决大数据的方法。我和Jeff讨论了写数据本身和采取哪种提取方式取决于数据类型,以及光谱的哪一端,哪种硬件需要用来分析数据。当然,我们晚餐中间讨论了操作系统、文件系统和其它的大数据架构所需要的系统软件。得到编辑的批准,我和Jeff准备开展“Jeff 和Henry的大数据探险。”
我将会开始讨论大数据算法所需要的硬件和大数据架构的问题。例如:
· 未来需要哪种架构解决MapReduce难题,未来的图表问题或者图像改变监测问题?
· 你是否需要SSD,SAS驱动或者企业SATA驱动?
· 需要哪种类型的存储控制器?
· 关键数据归档问题是什么?
· 在将来,需要哪种接口——SAS、Fibre Channel Ethernet 或者其它的?
· 计划的CPU会满足需求吗,或者需要GPGPU、FPGAs 或者一些不太显眼的东西?
· 内存要求呢?未来是否DDR-3/4/5内存计划能够满足需求?
· 你需要存储分层和更大的内存?例如通过扩展CPU渠道,如SGI Ultraviolet一连接机器,或者专业的内存系统和处理器,例如Cray uRIKA?
· CPU建设是否需要缓存一致性检查,缓存一致性带宽对于你需要的数据类型分析有用吗?
· 操作系统高于设备寻址底层硬件的任务吗?
· 语言、编译器、调试器和需要运行系统硬件的整个生态系统如何?
· 不要忘记数据的安全性,因为现在的数据已经成为信息和新建的知识,如何从你的竞争对手、敌人和不应该访问的雇员中保存信息?
也许你想让一些用户看一些东西,别的用户只能看匿名数据。医院病人的数据就是一个主要的例子;你除了医生不让别人看你的实际病历,但是研究团队可能需要查看病情、治疗选择和结果。安全将会是巨大的问题,如信息的创建和保存在一个独立的位置。不论它是个人的私有数据还是公司秘密,对黑客来说都是一个诱惑。不是所有人都能够查看所有事情,每件事情都应该被追踪,例如审查跟踪。
这里的问题包括:
· 需要运行在这些系统之上的应用程序怎么样呢?
· 某些查询会比其它的更优先吗?
· 应用程序是如何写数据的,以方便读取处理?
· 应用程序需要多少线程,需要一个并行编程模型吗?如果是,编程模型是什么样的呢,或者需要一个SMP模型吗?将会需要使用哪种编程模型?
程序上的应用程序可以获得任何捷径吗?90%的答案是获得50%的计算处理。这90%的答案适合在框架时期给出吗?或者你在做着生与死的抉择的时候,在哪种情况下90%的答案是不够好的。
倒是幸亏,服务员上菜很慢而且饭菜可口,不然我和Jeff不会有足够的时间讨论这些问题。
当然,我们没有得出任何结论。自从我和Jeff的晚餐会议之后,我们在接下来的几天仔细讨论,并且决定将“大数据”作为我们第二年度联合写作项目的主题。
我们如何处理大数据
未来几个月,我会逐步建立堆栈和忙于大数据问题,将会起始于硬件和堆栈的向上移动。因为我说过很多次,细节很重要(至少需要一些时间)。Jeff会从另一端开始,致力于堆栈的中间部分。我们会在操作系统或者编译和函数库中的某个地方接合。
你可能会问为什么存储站点都在讨论编译器、调试器和类似的东西,为什么我要阅读这些相关的?好问题。答案是,我们将会看到我们的世界正从面向数据处理到面向信息的处理的转变。一切都将会改变,我们不希望我们的读者运用恐龙式的旧方法。我们相信这一转变,是如何考虑主要变化开始发生的理解关键。存储只是一部分,若想成功,你不只需要了解存储,还有新的操作环境及其需求。
这并不是说,我们相信会成为所有罗列内容的专家,因为没有人是,甚至是尝试成为的,但是那说明想要成功,你必须关注和了解方方面面,或者一些我也没想到的事情和一些独有的东西,才适合未来的发展。大数据不只是云存储。也不是关于归档、备份或者其它的战术问题。它就是谈论你所拥有的,提取能够帮助你的组织获得成功的信息。