深度学习在吉他效果仿真中的应用

2020-05-11 13:15:33

自20世纪40年代以来，电吉他演奏家、键盘手和其他乐器演奏家一直在使用效果器，这是一种改变原始音频源声音的装置。典型的效果包括失真、压缩、合唱、混响和延迟。早期效应踏板由基本的模拟电路组成，通常与真空管一起，后来被晶体管取代。尽管今天许多踏板都采用了现代信号处理技术的数字效果，但许多纯粹主义者认为，模拟踏板的声音是数字踏板无法取代的。我们将遵循深度学习的方法，看看我们是否可以使用机器学习来复制标志性的模拟效果踏板Ibanez TubeScreamer的声音。这篇帖子将主要是亚历克·赖特等人在深度学习的实时吉他放大器仿真1中所做的工作的复制品。

Ibanez TubeScreamer由布鲁斯吉他手Stevie Ray Vaughan普及，许多著名的吉他手都使用Ibanez TubeScreamer，包括小Gary Clark Jr.，The Edge(U2)，Noel Gallagher(OASIS)，Billie Joe Armstrong(Green Day)，John Mayer，Eric Johnson，Carlos Santana和更多2.使用我自己的Ibanez TS9 Tube Screamer，我们通过连接踏板Toan音频接口并记录数据输出来收集数据。IDMT-SMT-Guitar数据集包含许多不同电吉他的干信号录音，其中包含不同流派和演奏技术的单音和复调短语3。我们将使用此数据的5分钟子集，并存储原始音频以及音频通过时踏板的输出。为了保持重现性，我们将踏板和音频接口上的所有旋钮都设置为12点钟：

我们的模型架构将与WaveNet：A Generative Model for Raw Audio 4几乎相同。WaveNET模型能够生成在质量和数量上都比更传统的LSTM和基于统计的模型更好的音频。

WaveNet架构的“主要成分”由一堆膨胀的卷积，或称为槽层组成。通过将每一层的膨胀倍增(增加滤波器中每个参数之间的间距)，模型的感受场随模型的深度呈指数增长。这允许计算效率高的模型具有大的接受场，这是音效仿真所需的。

WaveNet架构的另一个显著特点是门控激活单元。每层的输出计算如下：

其中$ast$、$\odot$和$\sigma(\cdot)$分别表示卷积、元素乘法和Sigmoid函数，$W_{f，k}$和$W_{g，k}$是在$k$层学习的卷积滤波器。这被发现比传统使用的整流线性活化单元(REU)产生更好的结果。

WaveNet模型最初将16位音频时间样本量化到256个库中，并对该模型进行训练，以产生这256个可能值的概率分布。为了减小模型的规模，提高模型的推理速度，我们用单连续输出代替了256通道的离散输出。这是通过对每个层的输出的级联执行$1\x 1$卷积来实现的。

为了训练我们的网络，我们将误码率降到最低。这类似于均方误差(MSE)，但是在分母中添加项将使损失相对于目标信号的幅度归一化：

其中$\hat{y}$是预测信号，$y$是吉他踏板的原始输出。$H(\cdot)$是一个预加重过滤器，用于强调可听频谱内的频率：

在为模型选择层数和通道数时，我们发现堆叠了24层，每层有16个通道，并且扩展图案为：

能够很好地复制声音，同时在CPU上实时运行足够小的Torun。然后，使用ADAM优化器对该模型进行1500个历元的训练。这在单个Nvidia2070 GPU上大约需要2个小时。

训练完我们的网络后，我们可以在等待测试的集合上收听模型的性能。看看您是否能区分输出A和输出B(您可能需要戴耳机)。

我们发现，该模型能够再现与真实模拟踏板几乎无法区分的声音。最棒的是，该模型体积小，效率高，可以实时使用。使用这项技术，许多模拟效果踏板很可能只需要几分钟的音频样本就可以建模。

一如既往的感谢您的阅读！有关这篇帖子或其他帖子的任何问题，请随时在Twitter上联系：@teddykoker。

亚历克·赖特等人，“基于深度学习的实时吉他放大器仿真”，“应用科学”第10卷，第3期(2020年)：766.↩。

Christian Kehling等人，“通过估计乐谱和乐器相关参数，电吉他录音带的自动转写”。在DAFx，2014年，219年至26年。↩

Aaron van den Oord等，“WaveNet：a Generative Model for raw Audio”，arxiv预印本arxiv：1609.03499,2016年。-↩

https://teddykoker.com/2020/05/deep-learning-for-guitar-effect-emulation/

tags users