百度使用数据分析对2014高考作文题目预测这件事,值得再写篇文章。这是一次相当成功的预测,据有人分析,预测“命中了全国18卷中12卷作文方向”。其实在我看来还不止如此,甚至可以说全中。不过这些都不重要,甚至高考也不重要。重要的是,大数据的这种玩法,会给世界带来什么改变。
百度高考预测可以胜任高三考生报考决策指南的角色,它可以分析出全国大学和专业哪些热门、哪些好考
锤子和钉子
中国高考作文的出题方法有个固定的套路:给你讲一段小故事,然后让你根据这个故事,想想自己受到什么启发,写篇文章。换句话说你的作文重点根本不是这个故事,故事只是你要写的主题的一个素材。
同一个素材,各人思考角度不同,可以对应不同的主题。但更重要的是,不同的素材可以对应同样的主题。
比如全国卷的一个题目是“不要给野生动物喂食,否则它会丧失自己的觅食能力”。出题者的意图显然不是让人写一篇关于野生动物喂养的科普文章。
一个角度是把自己想象成野生动物,主题是年轻人应该自己闯荡,不能依赖前人经验的灌输。这不就是百度预测“生命的多彩”中的“奋斗”、“自由”和“青春”吗?而使用同样的主题,只要把文章稍加修改,完全还可以对付上海市的作文题:“你可以选择穿越沙漠的道路和方式,所以你是自由的;你必须穿越这片沙漠,所以你又是不自由的。”
另一个角度则是把自己想象成面对野生动物的人,那么主题就是要尊重自然,保护环境。这不就是百度预测“发展的困惑”中的“自然”、“环境”和“尊敬”吗?同样的主题下把文章稍加修改又可以对付辽宁省的作文题:“可惜漫天繁星没有了,沧海桑田转眼之间啊!当年那些祖先山洞边点燃篝火,看月亮初升天汉灿烂,他们欣赏的也许才是美景。”
现在我们的关键问题来了。到底是主题多呢,还是素材多?答案当然是素材多。素材怎么编都可以,但全体高中生都能想明白和说明白的道理就那么几个 — 具体说来,据百度数据分析发现,只有六个方面而已。
只要一个人熟读这六个方面各种可能主题的文章,掌握其写作套路,不管高考出什么素材都能应对自如。
这就正如有句谚语说“如果你手里有一把锤子,你看什么东西都是钉子”。这句谚语本来是贬义的,意思是告诫人们不要把什么东西都往自己掌握的有限理论上套。比如近年来人们学会了进化心理学之后,就不管看到什么社会现象都想用进化心理学解释,以至于我现在一听进化心理学就浑身起鸡皮疙瘩。
可是如果把这个锤子精神用在准备考试上,那是最好不过了 — 只不过你需要掌握的不是一把,而是六把锤子 — 有了这六把锤子就可以对付几乎所有的高考钉子。其实锤子精神还可以用在领导讲话上,任何事情都必须“高举中国特色社会主义伟大旗帜,以邓小平理论、“三个代表”重要思想为指导,深入贯彻落实科学发展观……”这方面目前一共有三把常用锤子,它们总是同时出现。
那么百度发现这些锤子用的是什么技术呢?
主题模型
给你一篇文章,你怎么能看出来这篇文章是说什么的呢?具体说来,你怎么能让机器知道这篇文章是说什么的呢?这个思想叫做“主题模型(topic modeling)”。
百度作文预测使用的主题模型技术叫做“隐含狄利克雷分布(Latent Dirichlet allocation,LDA)”。这是一个2003年才被提出的新技术,它的发明人之一正是刚刚加入百度,负责“百度大脑”项目的吴恩达。
LDA的基本思想非常简单。计算机认为文章只不过是一些词汇的集合。而每个主题,也只是一些关键词的集合。计算机没必要“理解”每个主题或者每个词的意思,甚至根本不用管这些词出现的先后顺序。
我们人为地设定一些主题,并且在数据分析的帮助下给每个主题设定好关键词。比如“狗”的主题下的关键词可以包括“骨头”、“汪星人”、“忠诚”、“朋友”等等,如果是最近的研究恐怕还要加上“广西玉林”。这些关键词的设定没必要非常严格,到底哪个词更重要可以交给机器去发现。
这样我们就有了一个主题的集合,每个主题又都是一大堆关键词的集合。同样一个词可以在多个主题中出现,但是在不同主题下出现的概率是不同的。
计算机要做的仅仅是使用一定的数学方法对根据每篇文章中的词汇进行分析。一篇文章拿过来,你要做的就是把事先设定的所有主题一个一个的过一遍,计算这篇文章中的词汇对应每个主题的可能性是多少。计算结果,就是这篇文章说的是每个主题的概率大小。一篇文章也许可以有超过一个主题,这不是问题。关键在于,计算机可以判断一篇文章最有可能说的是什么主题,第二可能说的是什么主题……这就相当于计算机已经“读懂”了这篇文章。
百度只要把海量的作文都用这种方法分析一遍,就得到了各种不同主题的出现总概率。更进一步,再结合年度风云搜索信息和当年的热点新闻信息,就可以判断现在最流行的作文主题是什么了。
LDA有很多应用。只要把“文章”改成“图像”,把“主题”改成“物体”,它就可以用来分析一张图片中都有什么物体,并用于给图像分类。它还可以用来分析音乐的乐句,再结合每首歌的受喜爱程度,就可以用于歌曲推荐。我猜主题模型的方法还可以用于分析新闻报道、电影剧本、小说和游戏情节,这样机器就能比任何文化批评家更早意识到现在流行什么。
如果机器如此厉害,人又当如何呢?
未来
设想几年之后,所有考生都知道了百度能预测作文题。这些考生将会熟练掌握百度指出的任何主题。这样一来,他们的高考作文成绩将会非常接近 — 而这是出题者所不愿意看到的,因为高考的作用不是为了证明学生学得好,而是为了选拔,选拔要求必须有比分差距。
出题者怎么办?他们必须打破俗套,发明全新主题!从这个意义上讲数据分析带来了社会进步。
但这有一个问题。数据分析会迅速发现这个新主题,并且促使它以比以往快得多的速度流行开来。等到所有考生都掌握了新的主题,这个新主题就又没用了。
所以数据分析的真正作用是能让好东西迅速流传开来……然后迅速消亡。这里说的当然不只是高考作文,更重要的是电影剧情之类。
华尔街的金融公司使用各种数学模型进行股票交易。这些模型的特点是一开始如果只有你在用,你也许可以非常赚钱,可是一旦别人也开始用同样的模型,那么市场就会在这方面变得越来越有效率,以至于这个模型的回报率就越来越低。于是你就只能再去发明一个新模型,一个更复杂的模型。直到这个模型也变得不好使。
结果华尔街就永远需要新模型,而且越来越复杂,越来越不容易赚钱。这是一场军备竞赛。
主题也是如此。一个好使的主题会因为有太多人使用而变得不再好使,人们被迫发明新主题,但新主题也将会变得不好使。
这都是互联网和数据分析带来的。整个过程的节奏可能会越来越快。