北京8月23日消息,据国外媒体报道,超市内部怎么设计才能最大限度地提高销售额?表面上,这个问题似乎与数据科学家挨不上边。消费者行为难以量化:因为不可预测并且似乎没有理由。为什么一些购物者在某些通道里呆了比其他人更多的时间?为什么每个购物者在店内行走的路线都不相同?为什么有些商品在上午畅销,但在下午根本卖不出去?
寻找这些问题的答案要靠非结构化数据分析--由于非结构化,这些数据无法整齐划一地输入到数据库或电子表格的行列中。绝大多数商业信息都是以非结构化数据形式存在。这些数据可能来自电子邮件、备忘录、视频、客户来电、推文、Facebook的消息和博客,本身就难以量化。因为非结构化,这些数据也更难以大量分析,但实际上,部分因为对大数据兴趣的日益浓厚,非结构化数据量最近也在激增。
对于企业来说,处理这一堆混乱的新信息可能遇到挑战,但也是巨大的机会。据凯捷咨询与《经济学人》信息部最近联合进行的研究显示,大部分高管人员(58%)依赖非结构化数据分析做出业务决策。企业分析的数据越多,就越能获得有价值的见解。技术供应商谈论的是非结构化数据的隐藏价值。他们认为,理解非结构化数据是数据分析的最新前沿课题。
找到一种利用所有这些谈话、PowerPoint演示稿和推文获得信息的途径,企业可从大数据中获取真正的价值。但很多供应商是从错误的地方开始。业务项目不应从从访问数据开始,首要任务应是确定要回答的问题。谁是我最好的客户?该产品为什么会失败?这些都是业务问题。但技术供应商却在寻找技术问题如:我们如何挖掘数据?我们怎样才能大海捞针式地找到有用数据?的答案。
理解非结构化数据只有一部分与搜索有关。真正的价值来自将非结构化数据与其他结构化信息联系起来分析。怎么做呢?想想一家公司会如何利用所有员工的知识。一个组织中会发生数以百万计的不同交流,这些交流包含了大量的有价值资料,但你怎么集中在最相关的信息上,并将其转化为真正见解?
第一步是要找出你要解决的问题,这可能决定销售流程的效率。我们如何利用更少的资源做销售?在你分析PB级数量的非结构化数据,从电子邮件、职员博客到语音通话时,首先你必须确定其中重要的结构化元素,目的是确定可说明问题的特定交流。但为了确定谁和谁谈论哪些话题,你需要从准确标注“主动谈话人”、“谈话内容”和“被动谈话人”开始。