编者按:深度学习的概念源于人工神经网络的研究。作为人工智能的一种,“深度学习”是一个训练系统,能处理海量信息,它们来源于音频、图像和其他输入的信号,如果向这个系统展示新信息,它会以推论的形式作出反馈。像Google和Facebook这样的科技企业已经在这个领域取得了技术进步并展开并购,“深度学习”的初创公司也在大量涌现。
斯坦福大学研究生Richard Socher在毕业之后创建了MetaMind,且于四个月后便从风投巨头Khosla Venture和Salesforce首席执行官Marc Benioff获得 800 万美元投资。
(MetaMind创始人Richard Socher,和 Sven Strohband在位于加州的办公室)
Richard Socher从没想到他会进入人工智能的尖端领域,他只是想把自己喜欢的数学和语言结合起来。
但是事情一件接一件地发生了,他开发完成了一项出色的技术“递归神经网络”(recursive neural networks),现在,他从大学离职后创办的企业MetaMind正式启动了,并获得了数家著名企业的金融支持。
公司成立仅四个月,Socher和他的团队力图证明在“深度学习”领域MetaMind处理图像和文本的能力比目前任何技术都更卓越。为此,除了宣布从Khosla Venture和Salesforce首席执行官Marc Benioff那里得到了800万美元的资金之外,MetaMind还在官网演示了他们的多种技术能力。
作为人工智能的一种,“深度学习”是一个训练系统,能处理海量信息,它们来源于音频、图像和其他输入的信号,如果向这个系统展示新信息,它会以推论的形式作出反馈。像Google和Facebook这样的科技企业已经在这个领域取得了技术进步并展开并购,“深度学习”的初创公司也在大量涌现。
但是,Socher认为人们在使用MetaMind时能体会到它的优势,这家初创公司拥有两项核心技术,一是受聘于Facebook的纽约大学教授Yann LeCun研发的“卷积神经网络”,该技术在图片挖掘方面取得了突破性进展;还有就是索赫尔自己的“递归神经网络”,它在文本处理方面成就斐然。
Socher接受科技博客VentureBeat的采访时说:“我们处在这项技术的前沿,并能与其他公开的技术一较高下,我们想尽量用科学化的语言来表述它。”
像拖放那样简单
它就像鼠标拖放一样简单,这意味着现在几乎任何人都能进行“深度学习”。
“你不必是程序员”,正如Socher演示的那样,用户可以给MetaMind一些简单的文本来进行训练,然后会收到若干行代码,它们可以直接嵌入应用程序,不需建立数据中心,甚至用像“亚马逊网络服务”这样的公共云,所有的一切MetaMind全能搞定。
MetaMind网站上还有很多这样的演示,有的可以指出两个句子在语义上是多么相近,有的能就用户搜索的某一主题词显示推文的肯定或否定程度。MetaMind还可以形成一个分类器:用户上传一个带有文本标签的电子表格,使系统知道要搜索什么,然后再给它一些文本,让它进行动态分析。
只要用一组相关图片进行训练,MetaMind还能对图像进行分类。当它“消化”了一些食物图片之后,你可以拖拽一盘鱼或者薯片的照片,它可以很自信地说出图片里是鱼或者薯片。
Socher还演示了MetaMind如何提取与文本框中输入的文字相匹配的图像。
或是输入几个词
Socher用笔记本电脑输入了“鸟”(bird)这个词,系统展示了一些图像,每张都有一只鸟。然后他输入了鸟的复数形式(birds),图像发生了变化,每张上都有很多只鸟。他说:“最酷的是它真的具有语义合成的感觉——词汇如何组成了较长语句的意义。”他键入“水上的鸟”,然后系统给出了鸟在水上飞翔的图片。
这种工作要求多种类型的“深度学习”,“卷积神经网络”在扫描大量图像之后能够提取特征,而“递归神经网络”能从句子中提取意义,这两项技术可以协同工作。Google和微软最近分别宣布他们已经掌握了一次性处理文字和图像的技术,但是Socher去年独立完成了这项研究,并在今年2月发表了两篇论文。他说:“我们拥有这项技术已经有几个月了。”
Socher走过了一条漫长的道路,他是德国人,大学期间他研究自然语言处理(NLP),但是他觉得其中数学的成分太少了,因此研究生阶段他开始研究计算机视觉,虽然数学的成分多了,但是仍不完美,因为那太简单了。随后他去美国读博士,在斯坦福大学专攻机器学习。在那里他听了Andrew Ng教授关于“深度学习”及其在计算机视觉中的应用的报告。
“我觉得那是非常棒的想法,但是它们仍然不太适合自然语言处理,”索赫尔说,“我创造了一些‘深度学习’的新模式,可以应用于自然语言的处理。”
他的“递归神经网络”分析相邻两个词之间的关联,然后它再分析这两个词和它们左边那个词的联系,以此类推,“递归”这个词的意思就是直到它能理解一句话中所有的语言成分的意义。
2011年他首次提出了这些模型,在学术界引发了兴趣,之后他发表了数篇论文来证明“递归神经网络”的可行性。
他曾想从事研究工作,但是今年初,他意识到他不想走这条路。
作为斯坦福大学“机器学习”课程300多名学生的助教,Socher看到大家很想把这种技术应用于所有的数据类型。
“每五分钟就有一个完全不同领域的新项目,”他说,“我喜欢这样,机器学习前景广阔,而且它的重要性将进一步显现。”
几年来,他拒绝了大公司提供的工作邀请,他想把这些技术带入更广阔的领域,让更多的个人和企业能够使用。
创立企业
他需要资金建立团队来实现这些想法,最后他去了Khosla风投,见到了这家公司的首席技术官Sven Strohband。现在,Strohband已经加入MetaMind担任首席执行官。
同时,Khosla风投的创始人Vinod Khosla(也是Sun Microsystems的联合创始人)担任这家初创公司的顾问,Salesforce网的首席执行官贝尼奥夫和蒙特利尔大学该领域领军人物Yoshua Bengio都加入了公司高层。
MetaMind已经建立了一个10人团队,并且开始吸引付费用户,他们为小企业提供服务,也为财富500强的大企业工作。他们为在企业数据中心运行的MetaMind系统发放许可证,还可以为使用MetaMind动力系统的公司提供额外的咨询服务。
具体业务包括抽取财务分析报告中隐藏的关键词,或分析人们寻求客服帮助的聊天记录。更丰富的应用还有根据X光片预测病情等。
虽然MetaMind已经有很多此类应用,但是他们还在征集新的项目,显示出开放的心态,目的是想让世界告诉他们什么才是最好的选择,这对一个初创公司来说是非常正确的。
Strohband说:“我们相信它应该为更多人所用,因为我们认为它有很多用途,坦率的说我们真的无法预料人们会用它还干什么。” (译|Tracey)