由于dataset数据集变得日益庞大并且难以处理,因此要想移动它们会越来越困难。当与以PB单位计量的数据库相提并论时,即便是最快速的数千兆位通道看起来也像鸡尾酒中的吸管一样单薄。在Structure 2012大会专家小组的一次讨论中,云计算领域的经理级高管们指出,要实现将大规模重要数据转移到利用它们工作的应用程序中,越来越任重道远,反之亦然。
一个选择是,简单地将应用实例移至毗邻数据的地方。为了靠近最重要的市场和客户,纽约证券交易所就曾将自己的数据中心搬到了新泽西和伦敦,纽约证券交易所IT部门NYSE Technologies的高级副总裁和平台服务方面世界级的领头羊Ken Barnes表示。起初,因为时滞的原因,这种地理层面的接近会非常必要,在证券交易领域,一毫秒的时间都是至关重要的。但是纽约证券交易所随后发现,由于客户在它的数据中心不断地移进和移出数量巨大的数据,带宽问题如今成了它的更大关注点。
Aspera公司联合创始人、工程技术部门副总裁SerbanSimu指出,对于金融服务而言,某种形式的主机代管可能会更有效,在这一领域,数据和用户全部都聚集在少数几个中心,但是在其他一些领域,比如康健行业,这种模式就行不通,因为在这一行业,医院、研究机构、上百万的医生以及数十亿计的患者全部分散在世界各地。为美国某家大学搜集和分析海外数据的一位医疗研究者,如今就遭遇了这样的带宽难题。
即使我们能够将应用移至靠近dataset数据集的场所,或者将数据库搬到利用它来工作的云计算资源所在地附近,在一个地点搜集的信息或者进行的分析,对于另外某个地点而言,通常也是实用的。Infineta产品副总裁HaseebBudhani说。
我们生成数据的速度要遥遥领先于我们能够移动数据的速度,我们生成的数据越多,数据就会变得越来越不可移动,思科系统副总裁和首席技术官Lew Tucker表示,“数据的确具有‘惰性’,”他说,“它倾向于呆在最初被输入的地方。”他提出,数据分析最终会采用分布式计算的模式。需要处理巨额工作量的领域,比如染色体组研究领域,将会在本地搜集并且前处理它们手头的数据,再将精心提炼过的dataset数据集传输到其他的分布式数据中心。既然视频行业可以通过引入内容分发网络,解决带宽分布的难题,Tucker提到,为什么其他领域的数据分析不效仿这一成功经验呢?