现在的数据不再整齐划一地按行和列排列,而是大规模地以非结构化形式堆放在数据库中。企业创建、收集、访问、分享和分析这些不同类型的数据以提高经营业绩。曾经用于进行数据分析的商业智能已经不再适用于目前的异构数据类型,包括电子邮件、字处理文档、协作网站和机器生成的数据等。
与此同时,繁琐和昂贵的专有企业搜索产品不能处理现有的结构化数据存储,并且不能以具有成本效益的方式来测量数据的规模和速度。现在我们的目的是找到一种能够对所有数据存储进行搜索、发现和分析(SDA)的解决方案,很多公司试图寻求开源方面的搜索功能应用程序,例如Apache Solr,以及大数据解决方案,例如Apache Hadoop,能够为他们提供及时和具有成本效益的对不断增长的数据总体的访问能力和洞察力。
数据现状
企业比以往任何时候都更加需要数据分析,但是数据的性质已经发生了变化。在不久前,企业需要分析的数据主要位于结构化数据库和电子表格中。但是,在过去几年中,一切都改变了。我们现在越来越多的(有时候是完全)依赖于数字形式的沟通。除了电子文件外,我们还有电子邮件、短信、博客及其评论、互动式网站(包括wikis和其他协作网站以及资料库等)。
再有就是机器生成的数据。你的汽车、手机、电度表都在产生数据,很快你的冰箱和咖啡机也会开始产生数据。事实上,人类和数字数据间的每个互动已经成熟到可以被捕捉和分析,这些信息并不整齐,但是这些信息是极其宝贵的。目前的企业搜索解决方案能够提供对这种非结构化数据的洞察力,但是它们并不能很好的进行测量,并且它们并不提供对结构化数据和非结构化数据必须的分析。
执行和测量分析以及利用ad-hoc访问能力的需要颇为引人注目。企业想要保持灵活性和竞争力,员工必须能够执行更快和更强大的搜索以提供对数据更好的洞察力,使他们能够发现之前隐藏的或者无法访问的数据中的连接。
很多企业对于用户和这片数据海洋(不只是原始数据)之间的相互作用变得越来越感兴趣,因为他们相信对这些互动作用的分析能够帮助他们更好地对客户做出响应,更快地认识业务和客户趋势,并作出更好的业务决策。这通常也是在这个时候“大数据”一词被大多数企业意识到。
在运营方面,企业需要确保他们能够成功地驾驭日益复杂的法律、法规和合规环境。这需要企业识别、存储、搜索和生成相关文件的能力。如果没有能够经济有效地分析内容的搜索和发现工具,预算将不堪重负,业务也将逐渐缺乏对员工和客户对企业的意义的真正性质失去洞察力。