AI玩游戏的过程可以为迁移学习提供帮助。DeepMind早期的神经网络一次只能玩一个游戏,即便它在一个游戏中表现良好,当把它用到另一个游戏时,它必须重塑已经搭建好的神经网络架构,“忘掉”之前学习的记忆,重新学习新的知识。要让AI像人类大脑一样去完成任务,可以在训练它玩一款游戏时,保留对专业知识的长期记忆,并将这些知识经验用到掌握其他游戏的过程之中。DeepMind在去年3月发表的论文中已经克服这个问题,可以使AI像人类大脑一样同时掌握多款游戏的玩法。
3、永不停歇
用游戏训练还有一个好处是,没有硬件设备等各种客观条件的限制,AI可以自由地进行长期的训练。通过游戏,AI运算性能得以提升,产生大量数据,这方面的进展对其他针对现实问题的AI研究也很有帮助。
4、确保AI不“耍滑头”
在研究AI技术的过程中,DeepMind等公司并没有忽视AI的问题和警示,DeepMind和OpenAI决定合作找到方法来预防AI带来意外的不好结果。DeepMind让AI只处理自己视野范围内所“看见”的问题,不允许AI直接向运行游戏的计算机索取坐标等信息,就是为了避免AI走一些普通玩家在玩游戏时不会用到的“捷径”。再以OpenAI在竞艇游戏CoastRunners的实验为例,AI在进行强化学习的过程中,发现自己与其快速完成任务,不如一直原地打转获得的分数高,这让研究者感到担忧。为了避免类似情况的出现,两家公司为AI提供更多的“人类建议”来验证AI的行为方式。不过,花时间多次验审,总比让AI一不小心发疯就毁灭地球要好的多。
辉煌战绩背后的阴影
DeepMind在用AI战胜人类方面已经享誉世界,它在Alphabet集团中可以说是一个比较神奇的存在,自由、品牌响亮,其背后又隐藏长期亏损、数据不公开等问题。
1、自由的独行侠:拒绝接机器人,看不上云服务
DeepMind是一个特立独行的公司。它的工作仍侧重于理想环境下算法的开发,侧重于充满未来主义的工作。它目前拥有700多名员工,每周都会写出描述他们工作进展和最新成就的学术论文。
据说当年安卓之父Andy Rubin离职时,谷歌创始人之一Lawrence Edward Page曾想让DeepMind接管Google机器人部门。不过DeepMind创始人兼首席执行官Demis Hassabis认为波士顿动力没怎么使用AI技术,这个业务会分散DeepMind的注意力,因此他拒绝了佩奇的提议。
▲DeepMind创始人兼首席执行官Demis Hassabis
此外,在VMware联合创始人兼前首席执行官Diane Greene被Google请来领导云计算业务部门时,她曾想借助DeepMind领域 的超高声誉为谷歌云服务进行市场宣传。然而,考虑到谷歌云的市场目标不清晰会削弱DeepMind的品牌,DeepMind也拒绝了这个提议。
2、烧钱大佬:长期负盈利,资金流向不明
拥有研究的自由,DeepMind也不得不承担相应的代价。
根据去年10月英国政府发布的资料,DeepMind在2016年亏损1.235亿英镑(约合1.62亿美元),这与Alphabet同年总盈利190亿美元相比仍然不算是小的数额。其中4020万英镑(约合5270万美元)的收入全部来自为其母公司Alphabet的其他部门(而非外部客户)所做的工作。DeepMind还有包括不动产和计算机系统运行和维护在内的4110万英镑“管理服务费”。而最大的资金花费则在“员工工资和其他相关成本”方面,DeepMind在工资、差旅、办公软硬件方面耗资达1.047亿英镑(1.37亿美元),比上一年4420万英镑的两倍还多。