因为数据太多,所以计算特别的慢,所以需要非常大的计算量。
如何识别网站内的正文位置倒还是个比较好解决的问题,如果你心一横,决定只从几大(十几大)主流媒体内复制文章的话,用if else都是可以解决的,毕竟虽然每个网站之间正文部分的规律不同,但每个网站内部的文章还是基本遵循相同规律的。实在想做一个通用的算法来说,规律也不难找,比如正文部分的文字密度会突然变大而html代码的密度则会暴跌,比如正文的始终基本都是<p></p>。如果网站每天能更新四五百篇文章的话,估计训练个十天左右就能达到非常高的准确度了。
难点在于“追热点”啊!
互联网的热点每天都在变化,你的算法怎么知道今天的热点是什么?又如何知道算法正在扫描的这篇文章是不是跟热点有关的文章,写的如何?要让算法训练出判断这些信息的能力,怎么说也要扫描个几千万上下篇文章来训练吧?作为一个终极发烧友码农,你第一次感觉到了你面前的那台电脑里的8核i7和GTX Titan是那么的无力,哎,写个爬虫慢慢爬着先吧。看改天能不能改天网络低峰期用公司的服务器偷偷跑一跑。
要让深度学习算法自己进化到一个比较高的水平,李开复老师估计至少要有10亿级别的数据,如此庞大的数据是相当难以收集的。而且,只有这些数据都是你自己的时候,他们在你手中才能发挥出真正的价值,并且由于数据量的庞大其需要的运算量也是相当庞大的,要在深度学习领域大展身手,最好有自己的计算设备,比如拥有自己的服务器机群。因此我们看到,初期在人工智能有所建树的都是世界级的、像微软、谷歌和Facebook这样的公司,他们不仅拥有更多的资金、更好的人才,最重要的是,他们拥有海量的数据。
深度学习挑战之三:没有反馈
“有点奇怪但也合理:机器无法用人的语言告知做事的动机和理由。即便机器训练做了很棒的深度学习,人脸识别、语音识别做的非常棒,但它不能和人一样,它讲不出来这是怎么做到的。虽然有人也在做这方面的研究,但是在今天,如果一个领域是不断需要告诉别人该怎么做,需要向别人去解释为什么的,那这个领域对于深度学习来讲还是比较困难的。比如Alpha Go打败李世石,你要问Alpha Go是为什么走这步棋,它是答不上来的。”
深度学习只是一个算法,它只能根据自己的初始设计不断改变自己,但没法通过一个有效的途径告诉你它是怎么改进自己和怎么在改进后做出每一次选择的,因此很多时候你只能通过它的最终表现来猜测它的运行状态,然后瞎猫碰死耗子的改进最初的算法了。而且你可能也没法从算法的进步上获取帮助自己进步的信息,比如李开复老师举的AlphaGo的例子。
当然,作为一个世界级的码农,你是肯定知道这些的,而且也一定能根据算法最终的表现发现问题在哪里的,因为毕竟这个问题在结果上体现的还是比较明显。
在这个虚拟的世界里,我们决定给所有苦逼的编辑们一个完美的结局:心怀天下的码农成功开发出了一套“全自动文章转载机”,这家媒体的编辑们终于能够腾出一些精力,写一些能够精细打磨的文章了。
所以你看,虽然不知道AI最终会不会毁灭我们,但看起来它们倒是很快就能拯救不少人呢
登陆|注册欢迎登陆本站,认识更多朋友,获得更多精彩内容推荐!