半结构化数据如何适用于结构化和非结构化数据
半结构化数据维护用于识别单独数据元素的内部标记和标签,从而实现信息分组和层次结构。文档和数据库都可以是半结构化的。这种类型的数据只代表结构化/半结构化/非结构化数据的5%-10%,但具有关键的业务用例。
电子邮件是半结构化数据类型的一个非常常见的例子。而更高级的分析工具对于线程跟踪,近似重复数据删除和概念搜索是必需的。电子邮件的本地元数据可以实现分类和关键字搜索,无需任何其他工具。
电子邮件是一个巨大的用例,但大多数半结构化的开发中心都在缓解数据传输问题。与基于Web的数据共享和传输一样,共享传感器数据也是一个不断增长的用例:电子数据交换(EDI),许多社交媒体平台,文档标记语言和NoSQL数据库。
半结构化数据的例子
标记语言XML这是一种半结构化的文档语言。XML是一组定义人机可读格式的文档编码规则(虽然说XML是人类可读的,但并没有带来太大的好处,因为人员阅读XML文档都会让他们更加耗费时间。)其价值在于它的标签驱动结构非常灵活,编码人员可以使其适应在Web上普及数据结构、存储和传输。
开放标准JSON(JavaScript Object Notation)是另一种半结构化数据交换格式。Java隐含在名称中,但其他类似C语言的编程语言可以识别它。其结构由名称/值对(或对象、散列表等)和有序值列表(或数组、序列、列表)组成。由于结构在各种语言之间可以互换,JSON擅长在Web应用程序和服务器之间传输数据。
NoSQL半结构化数据也是许多NoSQL(不仅是SQL)数据库的重要组成部分。NoSQL数据库与关系数据库不同,因为它们不会将组织(模式)与数据分开。这使得NoSQL成为存储不容易适应记录和表格格式的信息(比如长度不同的文本)的更好选择。它还允许数据库之间进行更容易的数据交换。一些较新的NoSQL数据库(如MongoDB和Couchbase)也通过将它们以JSON格式本地存储来包含半结构化文档。
在大数据环境中,NoSQL不需要管理员将运营和分析数据库分离为单独的部署。NoSQL是可操作的数据库,并托管用于商业智能的本地分析工具。在Hadoop环境中,NoSQL数据库摄取并管理传入数据并提供分析结果。
这些数据库在大数据基础架构和LinkedIn等实时Web应用程序中很常见。在LinkedIn网站上,数以亿计的商业用户可以自由分享职位、地点、技能等等。LinkedIn以半结构化格式捕捉海量数据。当求职用户创建搜索时,LinkedIn会将查询与其大规模的半结构化数据存储相匹配,将数据交叉引用到招聘趋势中,并与求职者分享结果推荐。 Salesforce等高级LinkedIn服务中的销售和营销查询也采用相同的流程。亚马逊还将读者推荐建立在半结构化数据库上。
结构化数据与非结构化数据:下一代工具是游戏规则改变者
可以使用新工具分析非结构化数据,特别是给定用例参数。大多数这些工具都基于机器学习。结构化数据分析也可以使用机器学习,但海量数据和许多不同类型的非结构化数据都需要它。
几年前,使用关键字和关键短语的分析人员可以搜索非结构化数据,并对数据涉及的内容有一个清晰的概念。电子发现是这种方法的主要例子。但是,非结构化数据的增长速度非常快,以至于用户不仅需要采用计算工作的分析,而且还要自动从他们的活动和用户决策中学习。自然语言处理(NLP)、模式感知和分类以及文本挖掘算法都是常见的例子,文档相关性分析、情感分析和过滤器驱动的网页收集也是常见的例子。
使用机器学习智能进行非结构化数据分析可使组织:
1.分析数字通信的合规性。违反合规性将会使企业损失数百万美元的费用、诉讼和业务损失。模式识别和电子邮件线程分析软件可以搜索海量的电子邮件和聊天数据,以防潜在的不合规情况。最近的一个例子就是大众汽车公司可能通过使用分析来监控可疑消息的通信,从而避免了巨额罚款和声誉损失。
2.跟踪社交媒体中的大量客户对话。文本分析和情绪分析可让分析师检查营销活动的积极和负面结果,甚至识别在线威胁。这种级别的分析是一种更为复杂的简单关键字的搜索,它只能报告基本知识,例如海报在新广告系列中提及企业名称的频率。新的分析还包括以下场景:提及的是积极还是负面?海报是否有更好的宣传作用?用户对行政公告的反应是什么?例如汽车行业大量参与社交媒体的分析,因为购车者往往会转向其他海报来衡量他们的购车体验。分析师使用文本挖掘和情感分析相结合的方式来跟踪Twitter和Facebook上与自动相关的用户帖子。