新算法捕捉人类耳朵的愉悦之音——并可能取代人类调音师

随着计算机硬件和软件日益强大，它们找到了匹配甚至超越人类多项能力的方法。人类一直固执地不愿放弃的领域之一是调音乐器。2000多年前，毕达哥拉斯就确定了音调之间精确的数学关系，而现代机器在精确数学运算方面可以超越任何人。那么，为什么计算机不如人呢？专业调音师确实有一个无可辩驳的优势：训练有素的人类耳朵。事实证明，不精确性早已存在于我们的音阶、乐器和调音系统中，因此专业调音师必须通过耳朵来调整每件乐器，使其达到最佳音效。电子调音器无法做到这一点，因为一直以来都不知道如何计算它。基本上，这是一种艺术，而不是科学。但是现在，发表在arXiv上的一项新算法声称其效果与专业调音师不相上下。要理解这项新算法的工作原理，就值得先了解一下当今电子调音器的局限性。人类1，机器0 自动调音的一个主要问题根植于西方音乐体系和人类听觉的限制。在大多数现代西方乐器使用的平均律系统中，每个音符的频率比其下方的半音大 2^(1/12) 倍，即 1.0595。如果你向上移动 12 个半音，该音符的频率就是你开始时的两倍：一个八度。但是有一个问题：平均律系统并不能精确生成像纯五度这样的音程，其中顶部和底部音符之间的频率比应恰好为 3:2。（纯五度是“小星星”前四个音符中的音程。）在严格按照平均律调音的乐器上，纯五度的顶音符频率是底音符频率的 2^(7/12) 倍，即 2.997:2——并非精确的 3:2——而我们的耳朵自然认为音符频率之间的整数比是最悦耳的。（上一句话根据下方评论进行了更正。）音感好的音乐家可以听到这种细微的差别。在乐器从最低音到最高音的整个音域内，这种微小的差异会累积，并干扰本应令人愉悦、和谐的泛音——由任何乐器产生的较高频率的次声波——的声音。解决方案是进行“修饰”：调音师“拉伸”某些弦的频率，以使乐器整体听起来更好。经验丰富的专业调音师会根据我们纯粹的数学音乐系统和人类心理声学来优化乐器的声音。这种拉伸效果使专业调音的乐器比电子调音的乐器听起来明显更好。上图显示了一个在人工调音的钢琴上进行拉伸的例子。人类1，机器1？

这项新研究用一种算法取代了人耳检测“愉悦度”的能力，该算法将乐器产生的声音的香农熵最小化。（研究人员表示，香农熵与信号中的随机性有关，例如声音的波形，与物质和能量的熵无关。）研究人员说，当音符失谐时，熵会很高，当音符调准时，熵就会降低。研究人员表示，该算法会尝试对音符的频率进行小的随机更改，直到找到最低的熵水平，这便是其最佳频率。并且，将调音器设置为遵循此算法而非当前更简单的公式，将是一个简单的修复。该论文包含一张图，将人类（黑色）和算法调音（红色）的结果进行了比较，以证明后者的有效性。不错，但基于熵的调音尚未通过最终考验：音乐家的耳朵。[通过 arXiv Blog]

图片来源：Haye Hinrichsen / arXiv