Teradata宝立明:迎接大数据时代的来临

随着社交网络、移动计算和传感器等新的渠道和技术不断涌现,大量新型数据应运而生。我们生活在一个数据成指数式急剧增的时代,常规技术已经难以应对PB(1024TB)级的大规模数据量。我们已经进入了多元化大数据时代。在这样一个大数据结构与非机构化数据的时代中我们应如何面对。记着在采访Teradata的首席技术官Stephen Brobst宝立明先生时,他表示:“大数据时代的来临已经毋庸置疑。只有那些能够运用这些新数据型态的企业,方能打造可持续的重要竞争优势。”

面对海量数据的迷惑 Teradata的解决之道

人们对于海量数据感到困惑是因为对于整个数据的全局没有很好的把握,他们所看到的只是破碎的、零散的、局部的数据,就像你通常把一些数据做了一个总结一样,而在这个总结的过程当中,你会丢失掉很多细节,而有很多有价值的信息正隐藏在具体的细节当中。Teradata能帮助用户深度了解这些数据的细节,打个比方,帮助客户了解数据每一个构成的原子或者是分子。要实现这样的目标,需要有很强的可伸展性。这种可伸展性可以帮助用户能够去掉那些局部性的对于数据的了解,深入到数据的细节,这样就可以解开用户对于整个大数据的困惑。

在数据的分析方面,Teradata的数据库主要用是来分析结构性的数据。当Teradata收购了第三方的工具之后,Teradata可以把一些非结构性数据转化成结构型数据,再用Teradata的解决方案,或者产品进行相应的分析。收购Aster Data之后,其实我们可以直接地把一些非结构性的数据存储到我们这里,然后可以直接对非结构性的数据进行相应的分析。

如果你问我是不是通过Aster Data,就完全解决了分析非结构性数据的问题,我的答案是我们永远不可能完全把某些问题都解决。只不过是现在通过收购Aster Data之后,这项工作变的更加容易一些了。

数据的安全性 Teradata数据保护优势凛然

关于隐私的保护的问题,Teradata的首席技术官Stephen Brobst宝立明先生认为,可以提供某些层次上的用户隐私的保护,如:通过对一些数据进行加密,或者只让需要知道数据的人了解、接触或者访问到这些数据,比如说需要做决策的人,这只是一种层次上的隐私保护。但是更为重要的是,现在人们都非常担心自己的数据或者信息会被别人看到,而Teradata可以通过数据挖掘的软件解决这些问题。通过数据挖掘软件,实际上看到用户的数据或者信息的并不是某个具体的人,而是一个软件。这个软件用来处理这些数据,并且判断这个数据应该被什么样的人所使用或者用于什么样的目的。

就我个人而言也是数据的消费者,我一旦收到比较有用的、有意思的广告,尽管我知道这只是随着邮件而附带来的广告,但是我仍然愿意收到它。所以说作为一个消费者,对于这样有用的信息数据,我还是能够接受的。另外我觉得我作为一个消费者,我也有权利做出一些决定,我要用哪些数据和信息,不用哪些类型的数据或者信息。因此消费者实际上可以对此有一定的控制能力,同时也可以来决定哪些最符合他的利益的数据。

很多国家的立法者或者政府希望通过建立或者制定一些保护隐私的法律来实现对用户信息的保护。但是这些立法者,对于数据相应的分析是非常的不了解。最后导致的结果可能就是这种出于隐私保护目的的法律,最终产生不理想的结果。举个例子,在某些国家对于一些电话用户的呼叫记录,最多只能保持90天,而且这样的一种呼叫记录只能够用于计费的目的。这样就限制了电信运营公司对数据的保存,不能够很好地来设计符合消费者或者用户需求的电信产品;同时在定价方面也受到了很大的限制,进而影响了市场的竞争。

所以这个例子说明,虽然立法者的初衷是想要保护用户的隐私,但是由于他缺乏对数据分析的了解,最终可能限制了用户真正对信息和数据的使用。电信运营商如果要保留用户电话通信的记录,也有责任对记录或者信息、数据进行保护,以免未经授权的人来使用这些信息和数据。在这样一个过程当中,当然就要用到加密的软件或者是用到其他数据保护的方法。我们在全球范围内是和一个叫做Protegrity公司来进行很好的合作,他们有非常出色的加密的能力和技术,所以我们就把他们加密的技术嵌入到了我们Teradata公司的产品和解决方案当中,来为我们的用户提供相应的保护。

Teradata有非常先进的加密技术,实际上所有的设计都是加密的,都是来自数据库加密,所以除此以外我们有完全并行的内部的数据库加密能力,也就是说在表格等等都可以。从安全角度来说可以把所有的数据进行编加密、保存还有储存。即使有一些也进入了系统,他们也无法了解这个数据,而且这些数据都必须加密这是客户的选择,最好的做法就是由客户来进行加密。

数据的备份与恢复Teradata的多系统管理

还有就是数据的备份和灾难恢复,每一个分支机构当中都会有一定的数据的存在,关键之处就是在创建这些数据的伊始,你就必须要对这些数据实现集中化,这样做的好处就是这些数据不再是像孤岛式的一个一个存在,而是被集中在一起,这样你就有一个单一的数据来源。你可以通过使用数据集成的技术,或者是使用Teradata公司所提供的这些技术和解决方案,深入到每一个数据的细节进行了解。所以实现这样一个数据的集中化之后,随之而来的就是它可能也会出现这种单点的故障,这时候出现了单点的故障,就必须具备灾难恢复的能力。我们经常采用的是多系统管理的能力,而且也能够提供一些多个负载的能力。如果说一旦某一个系统,由于自然的灾害出现了故障,比如说由于地震、飓风出现了中断,它就会自动地来转到其他的系统进行相应的一些数据处理和分析的能力。

有很多执行这些关键任务的机构,或者是公司,都在采用这种方式来对自己的数据进行管理。比如说像沃尔玛、e-bay、AT&T和世界银行。另外中国现在也有很多客户在完成或者执行一些关键任务的时候,他们也会采用这样的方式来做。

另外我还想强调一下,我们的灾难恢复的系统实际上是一个双有源系统,或者是一个双活跃的系统。Teradata产品跟其他的产品不一样,其他人员在做灾难恢复的时候,通常会有两套系统,一套只是备用的,也就是说只有出现了灾难的时候,才会启动这样的系统来做。但是我们的不同之处在于我们有两套系统,这两套系统都是在有源状态下进行工作的,也就是都处于活跃的状态,我们会在这两套系统之间,实现非常好的负载均衡。这两套系统,都在行之有效地工作,因此也带来了非常高的成本的效率。而其他的公司的产品只有一套系统一直在动,而另外一套系统一直处在无源的状态之下,或者说一直不去积极地在工作,这时候相应的成本也是非常高的。

大数据时代 技术的融合与趋势

商业智能分析,能够给人们带来什么样更多的价值,它最主要的一个价值就在于它能够让这些知识型的工作人员,更好地对数据进行控制。就像刚才我们所提到的,我们提供了一种非常凝结的、云的环境,让这些知识性的工作人员,能够很好地来控制自己的数据,也能够控制对于数据的分析。比如说像Teradata公司所提供的数据视觉化技术,就可以使得知识型的工作人员,不需要有IT人员的介入,就可以把自己相应的一些数据进行分析和处理。

我觉得新技术或者说具有突破性意义的技术是非常必要的。所以这也就是我们为什么收购Aster Data这家公司,因为它所提供的就是具有突破性意义的新的技术。我们认为在一段时间内,新旧技术之间是有一个共存的关系,但是最终新的技术还是会合并成为一体,新技术要花一定的时间要不断演进,最终慢慢地来形成对旧技术的包围,以及最后把它融为一体。

然后对于未来的技术趋势的思考我有四点,首先第一点,就是刚才在新闻发布会的现场也提到的一点,我们会看到传感器将会是无处不在的,物联网的不断发展,也给我们带来了海量的数据,让我们进行分析。

第二点,我们要实现规模化,很多分析性的规模要进入数据库当中。我们不能只是做数据的拷贝,而更多地要把分析性的功能纳入到数据库当中,比如说像现在SAS和Teradata之间的一个合作,我们可以把SAS公司的数据挖掘的能力纳入到我们数据库当中,另外还有Informix与我们的合作,我们要把它的数据集成功能纳入到数据库当中。

第三点,无处不在的或者普遍存在的商业智能。商业智能在将来会发展成为消费者智能,所以“智能”以及“分析”这两个词应该说是未来非常关键的两个要素。而且随着移动终端不断地普及,我们看到越来越多的智能和分析的能力,会被终端用户通过移动的终端来实现。所以移动终端对于未来也是非常重要的。

第四点,这些非传统性的数据分析,比如说像社交媒体,像视频或者像一些话音方面的数据,从传统意义上来说,我们是不需要对这些数据进行分析的,但是这些数据也成为一个需要分析的数据。

对于CIO们的建议,应该考虑做一些相应的投资,也就是说不要再仅仅局限于对传统性的数据来进行一些分析和处理,而现在需要来投入一些力量,来对非结构性的数据进行很好的分析。所以他们在相应的策略和考虑的时候,要进行重新的思索和定位。

在大数据社会化的趋势下需要捕捉一些社交媒体所产生的用户感觉,这个时候我们就必须对这些社交媒体整个的网络有一个非常清楚的了解和认知,才可以从这个社交媒体网络上提取相应的数据和信息来近些分析,以此来得出对用户的感觉、了解和捕捉。这时候所做的分析就包括,对社交媒体上的用户的一些自然语言的处理,以及对他们的行为或者是一些相应的活动的分析和处理,这也就是我们收购了Aster Data公司的原因。这个公司的技术可以帮助我们处理非结构性的数据,对非机构性数据进行很好的分析。