“大数据100分”首场交流:数据处理 “去贵族化”+机器可读新闻

所以,那些寻求资本市场大数据挑战的技术专家们,我们的合作点不在我出数据你出技术,而在你帮我找到让两个领域的数据之间能产生化学反应、产生全新生态的跨界关联模式。我们翘首以待这样的专家横空出世。当然我说的两个领域,不限于两个传统领域。可以一个是传统领域,另一个是全新打造的新潮领域。

我一直在想,如果有哪一项服务能汇聚全资本市场的流量,如果有哪一项服务能沉淀全资本市场玩家的行为数据,如果有哪一项服务能在传统的行情和资讯服务之外另辟蹊径并且与传统服务产生跨界关联的“化学反应”,我们这个行业的业态将会随之发生颠覆性的变化。

三、“机器可读新闻”

在诸多面向资本市场的新兴服务形态中,我最关注的,是糅合了文本挖掘、情感分析技术的“机器可读新闻”。我想就这个问题与大家展开来分享一下。

去年年中,美国股市出现了一个奇葩的事情:当黑客黑掉美联社网站,发布白宫被炸、奥巴马受伤的消息后,美国股市瞬间跳水,反应时间在秒级。

使我感到惊奇的不是黑客的手法有多高明,而是这反应时间怎么会这么短。很难想象人肉对这个消息能有如此迅速的反应。在这个反应链条中起关键作用的就是这个“机器可读新闻”。

所谓机器可读新闻,其原理是,对原始新闻文本进行自动化的分析,在一定条件满足时,就形成一条携带预先定义好与这种条件相匹配的电子标签数据。自动化程序交易系统可以自动识别这样的电子标签数据,并在资本市场上做出响应动作。这意味着,机器不仅读得懂行情数据,也在一定程度上读得懂插入了电子标签的(基本面)文本资讯数据。当然,他们的系统大多是针对英文的,而且判断的逻辑目前还稍嫌简单粗暴,否则也不会有这样的乌龙了。

但是公平地说,这是一个巨大的机会,特别是,针对中文还没有这样的东西,中国的资本市场还处在新兴加转轨的阶段,信息不对称还很普遍地存在,用机器代替人肉来扒皮有很高的价值,所以机器可读新闻这玩意儿,谁先搞出来,谁就彻彻底底占有了先机。

特别是,以互联网金融为代表的普惠金融,必然地会涉及更加草根化的公司的直接融资需求,在这个领域信息不对称十分严重。用机器可读新闻来打破信息不对称,帮助投资者更好地掌握自己所投资的公司的全面信息,那可是如虎添翼了。

提问:@柚子:那和爬虫技术有什么区别?

爬虫不看内容,但属于基础设施。爬回来的东西在瞬间精选,不仅判断跟啥相关,还判断对相关投资决策而言是正面还是负面,这才是机器可读新闻。

其实,标签的潜在启示作用比其字面启示作用更大。今天大家盛传东莞扫黄的信息意味着什么股看多什么股看空,这就是标签沿价值链的传播。有了好的传播模型,标签的价值会更加超出预期。

机器可读新闻作为信息服务,单独看已经有了这样的机会,与资本市场传统的信息服务结合起来看就更加不同了。谁订阅了什么标签,谁看了哪只股票的行情,谁在什么产品的什么价位上发表了哪些实质性的评价和建议……如果借助一定的媒介实现了这些跨界数据的集成,这种互联网打法一定会颠覆我们这个行业信息服务的既有业态。

互动:@赵国栋:爬虫先爬,然后“智虫”解读!标签链!!

我注意到,今天传播的段子中,既有扫黄影响到桑拿,也有桑拿影响到供水。这是典型的标签沿价值链传播。

提问:@雨醉天堂:请问白老师,行为金融学和大数据收集分析算不算这个领域

算,过去量化投资决策的很多事情,不是都由计算机来做了吗?国内已经有一些IT公司试图进入这一领域(画外音:具体是哪家,大家自己发动个人智慧去吧,蕴含了股市中的机会哦)

两个方向:结构化数据->新闻文本 vs. 新闻文本->结构化数据。前者是数据新闻,后者是机器可读新闻。数据新闻是新闻的撰写流程自动化、表现的数据化,机器可读新闻是实现文章这种非结构化数据的结构化。

互动:@徐琪:“机器可读新闻”无疑是人类努力开发的一个方向,但是白老师所提到的股市瞬间下跌还是和这没有关联。

@白硕:

三种可能的情况:(1)有人值守在美联社的twitter账号上;(2)有自动化的watchdog一头盯在包括美联社twitter账号在内的一批信息源上,一头连在自动化程序交易软件上;(3)有第三方服务的watchdog一头盯在一批信息源上,一头把转换成的机器可读新闻喂给其客户的自动化程序交易软件。不排除(1)和(2)同时作出了反应, (3)这种服务形态,搭架子容易,有好的质量难, 但是绝对是方向。