我们的 AI 标题实验还在继续:我们是否打破了机器?

2021-07-22 22:52:35

我们现在处于机器学习项目的第三阶段——也就是说,我们已经摆脱了否认和愤怒,我们现在正陷入讨价还价和沮丧。我的任务是使用 Ars Technica 来自五年标题测试的大量数据,这些测试在“A/B”测试中将两个想法相互配对,让读者决定将哪个想法用于一篇文章。目标是尝试构建一种机器学习算法,可以预测任何给定标题的成功。到我上次登记入住时,它是……没有按计划进行。我还花了几美元在 Amazon Web Services 的计算时间上发现了这一点。实验可能有点贵。 (提示:如果您的预算有限,请不要使用“AutoPilot”模式。)我们尝试了几种方法来解析来自 5,500 个标题测试的 11,000 个标题的集合——一半是赢家,一半是输家。首先,我们以逗号分隔值的形式获取了整个语料库,并使用 AWS 的 SageMaker Studio 中的 Autopilot 工具尝试了“Hail Mary”(或者,我回想起来,“Leeroy Jenkins”)。结果验证的准确率为 53%。回想起来,结果并没有那么糟糕,因为当我使用专门为自然语言处理构建的模型——AWS 的 BlazingText——结果是 49% 的准确率,甚至比抛硬币还要糟糕。 (顺便说一句,如果其中大部分内容听起来像是无稽之谈,我建议您重新阅读第 2 部分,在那里我更详细地介绍了这些工具。)AWS 技术布道者 Julien Simon 的经历既令人欣慰又令人沮丧我们的数据也同样缺乏运气。在二进制分类模式下使用我们的数据集尝试替代模型只能勉强达到 53% 到 54% 的准确率。所以现在是时候弄清楚发生了什么以及我们是否可以通过对学习模型进行一些调整来修复它。否则,可能是时候采取完全不同的方法了。