华尔街如何玩转社交网络大数据

分析软件如何在全球每天数百亿推文中筛选有效信息,成为量化市场情绪的关键,专业的算法成为筛选有效信息的利器。

对相对成熟的美国公司来说,其能利用的数据池非常广泛。《每日经济新闻》记者注意到,Dataminr、SMA和Hedge chatter三家业界主力的信息来源分为两种。

一种是依托全球最大专业数据提供公司英国DataSift(数据雨燕)和美国GNIP。DataSift数据池共有超过21家网站,拥有强大的信息过滤算法,每秒能挖掘12万条推文,数据池除了主要的Twitter、Facebook、Wordpress和Tumblr外,还有图片社交网站Instagram、视频分享网站Youtube和Dailymotion等,其中Datasift还取得了新浪微博、腾讯微博的资源授权。

二是公司用自己的语义分析法对数据进行细分。例如SMA锁定超过30万的专业投资者,这部分人密切关注资本市场动向,有规定地发布股市推文。因此成为SMA数据库的基础来源,并每月自动筛选替换。

国内篇

A股情绪量化分析刚起步 深度待提高

在国内,首款情绪分析软件股票雷达已面世三年多;基于印第安纳大学研究成立的投资脉搏网站推出心情指数,直观感受股市情绪与大盘变化走势;基于百度搜集大数据的百度股市通也公布了不俗的成绩,我国的股市情绪量化分析已在起步。

作为2012年就利用社交情绪预测股市的公司,股票雷达创始人冯月在接受《每日经济新闻》记者采访时表示,股票雷达中的雷达关注功能是一款针对A股的个股资讯聚合分析工具,它通过捕捉全网各类股票资讯,统计网络中所有人的看涨看跌观点,再利用自身大数据技术分析出目前市场整体看好的股票是哪些。

与美国此类软件数据来源不同的是,冯月向记者介绍,股票雷达后台数据来源于全网,只要与股票有关的网站,包括微博在内,都是股票雷达分析来源。这主要是因为A股客户相对分散。《每日经济新闻》记者注意到,投资脉搏网站的股市心情指数,数据来源于股吧、新浪财经、搜狐财经等,并利用自家的算法程序在社交数据中提取最核心关键内容,辨别“涨跌、买卖”等关键指标,得出大多数股民对大市的心理预测值,且用户也能在投资脉搏网站上对当天股票的整体行情评分,取值范围是从-100~100之间,代表看空或看多情绪的强烈程度。

相较于分析股市情绪的上述两款应用,除了分析全网股市情绪外,百度在今年2月推出的百度股市通APP还利用了百度的大数据引擎技术,智能分析股市行情热点,根据百度股市通5月13日公布的数据显示,百度股市通所有热点事件股票的上涨概率达78%,股票日均涨幅达1.7%。

冯月向对记者表示,从国内应用提供的服务看,我国的社交网络情绪分析还处于起步阶段,也暂时缺乏健全的市场监管和指导。记者注意到,相较于美国社交网络情绪分析已深入华尔街,我国的股市情绪分析还有很大提升空间。

美国软件公司对市场情绪的量化已进入可视化阶段,能将一只股票的实时情绪变化走势形象地表现出来,甚至能将这些数据通过Excel下载并自行统计,其所能达到的直观效果与分析深度不言而喻。

我国的相关软件多是一揽子聚合信息服务中的一项,且只涉及后台分析,向投资者提供市场情绪看涨或看跌的个股,目前还不能像东方财富、同花顺等交易软件一样,向投资者提供具象数据。

争议篇

情绪指数非万能 但有助于理性投资

情绪跟股市之间的联系似乎得到了理论的论证,那么在“真刀实枪”的投资行为里,情绪指数是只能做提供分析参考的“助攻者”,还是可以直接指导投资的“得分手”,其预测个股的可靠程度又有多少,国内外对此的争议从未间断。

判断大市优于个股预测

对于个股预测,美国印第安纳大学信息科学及计算技术副教授约翰·博伦认为情绪预测大市趋势比预测个股更有用。

约翰·博伦质疑道,仅仅监测Twitter上的一个子集(如金融板块),到底有多大价值:“从表面的角度来看,这是一个显而易见的事情。但你必须问问:为什么有人要针对一只股票发推文,为什么推文比其他指标更有价值?”他补充说,如果你了解一点市场内幕,肯定不会和别人分享。

但博伦也认为,整体的互联网情绪分析能产生重大收获。他建立了一家趋势分析企业,试图发现“金矿”。他说:“我们在寻找隐藏的社会潜流。”