论追星,数学家可是相当专业的。两名披头士真爱粉合作起来,用统计学找出歌曲真正的作者。
图片来源:www.thebeatles.com 计量文体学(stylometry)是一种使用统计学技术来确定作者的方法,最著名的案例就是确定“大学炸弹客”的真身是泰德·卡辛斯基(Theodor Kaczynski),还发现莎士比亚和克里斯托弗·马洛(Christopher Marlowe)合作完成了《亨利四世》的剧本。在文本分析的过程中,暴露“幕后主笔”的并非那些不寻常的用词,而是最常用的词汇——常用词汇(如介词)的反复出现,标志了一个人可能的身份。 在爱德华王子岛的某次科学大会上,哈佛大学的统计学高级讲师马克·格利克曼(Mark Glickman)和戴尔豪斯大学的数学教授杰森·布朗(Jason Brown)意外发现对方也是披头士乐队(Beatles)的“真爱粉”,他们都想知道计量文体学的方法能否回答那个争议不休的问题:这些歌到底是谁写的,是列侬还是麦卡特尼? 格利克曼解释说,对于大部分标着“列侬-麦卡特尼”的歌曲,大家都清楚,也白纸黑字地写明,这是两人中的谁写的歌。然而,有数量惊人的歌曲(或者歌曲中某些段落)的作者尚存争议。例如,没人知道是谁创作了《In my Life》,这首歌出自 1965 年的专辑《橡皮灵魂》(Rubber Soul),在《滚石》(Rolling Stone)评选的“史上最伟大的 500首 歌曲”中排名第 23 位。列侬和麦卡特尼对这首歌的记忆完全不同。“所以,我们想知道是否能够使用数据分析技术,试图解开这首歌的创作之谜,看看它到底出自哪位之手。”格利克曼讲道。
约翰·列侬(左)和保罗·麦卡特尼(右),1964 年。| 图片来自维基百科 在哈佛统计学专业学生宋瑞安(音译,Ryan Song)的帮助下,格利克曼和布朗按照五个特征维度“解构”了披头士从 1962 年到 1966 年的所有歌曲。每个特征维度统计表示歌曲中某一音乐性特征出现的频率。“因为很难通过任何直接的方式将歌曲的音乐内容量化出来,所以我们方法背后的主要思想就是将歌曲转为一套不同的数据结构,通过定量方法给歌曲打上‘标签’,从而进行检验。”格利克曼继续说道,“试想一下,我们可以将某一种颜色解构成红、绿、蓝三种颜色按一定权重的组合。我们用同样的方法来处理披头士的歌,当然其中的成分不止三种。总之,我们的方法将歌曲分解为 149 种成分。” “歌曲的第一类特征就是不同常用和弦的使用频率,以及不常用和弦的集合,”格利克曼解释说,“我们确定了 11 种和弦类别。”然后,他们将旋律音符的特征提取出来,也就是主唱所唱的音符。接下来,他们记录下和弦转换的频率,即一个和弦接着另一个和弦出现的频率。在这里,他们再次将不常用的和弦转换归入单独的分类中。第四步,他们记录连续旋律音符对出现的频率。 最后,他们将歌曲分解为由四个旋律音符组成的“等高线”。格利克曼介绍,“等高线”就是四个旋音符旋律走向的排列顺序,分为“上升”、“下降”和“保持不变”。换言之,如果四个音符的走向是音调逐渐上升,那么其“等高线”就是“上升-上升-上升”,即每两个连续音符之间的音调是上升关系。格利克曼说,通过研究四音符等高线,能够获得额外的细节,有助于区分旋律创作的风格。 在这里,格利克曼指出,这五个分类维度之所以能够作为不同音乐创作风格的“标签”,是因为大家都非常熟悉披头士的作曲风格:列侬写的歌通常旋律线起伏变化不大。 “想想列侬的《Help!》,它基本上是这样,‘当我更年轻的时候,比今天要年轻得多的时候’(When I was younger, so much younger than today),音调的变化不大。旋律会重复停留在同一个音符上,只在某些短乐句中出现变化。而保罗·麦卡特尼的歌,比如《Michelle》,‘蜜雪儿,我的美人,这几个字母组合起来多么动听’(‘Michelle, ma belle。 Sont les mots qui vont très bien ensemble。),这一句的音调真是迂回曲折。” 通过音乐性特征来解决未知或者争议作者问题,我们可以从以下三个步骤了解他们的方法: 首先,他们的模型假定一首歌中 149 个音乐性特征的每一个出现频率都取决于歌曲作者。以“基音”(tonic,一首歌的主调和弦)为例,列侬歌曲的基音会有一定的出现频率,而麦克特尼歌曲中基音出现频率可能与之不同。 其次,他们使用概率论的一种常用工具“贝叶斯定理”(Bayes rule)来反转概率。换言之,他们先统计作者明确的歌曲中 149 个音乐性特征的频率,由此建立一个概率模型,再利用这 149 个特征频率判断一首歌的作者是列农或麦卡特尼的概率。然后,他们使用 70 首已确定作者的列侬-麦卡特尼合作歌曲或者歌曲段落训练这个模型。 最后,他们用经过训练的模型判断作者有争议的列侬-麦卡特尼合作歌曲或歌曲段落,预测它的作者是某个人的概率。 “所以,《In My Life》这首歌是麦卡特尼作曲的概率为 。018,也就意味着,列侬才是真正的作者。”麦卡特尼记错了。但是《The Word》这首歌,格利克曼曾认为它肯定是列侬作曲,但是模型预测结果告诉他作者几乎肯定是麦卡特尼。 除了做一个音乐版《谁是真凶》(Whodunnit?,一档娱乐节目)之外,这个模型还能有更多的用处吗?“当然,”格利克曼肯定道,“这个技术可以被推广到其他地方,我们可以回顾一下流行乐发展史,把风格流变的影响用图表显示出来。” (责任编辑:admin) |