纽约时报针对我们的直销广告业务推出了一项广告数据计划,该计划使用了我们自己的数据和数据科学技术。
当您浏览Internet时,您看到的大多数广告都是由一个或多个广告技术提供商提供的,这些提供商对从用户收集的行为和人口统计数据进行交易。这些通常被称为第三方供应商的数据使用该数据来告知哪些广告向特定受众显示。
网络上会显示两种广告:程序化广告和直接销售广告。对于直接销售广告业务,发布商几乎总是依靠数据管理平台或DMP来支持受众群体定位。 DMP通常使用用户浏览器中的第三方cookie来匹配他们已经了解的有关用户的信息,然后在用户浏览其网站或移动应用程序时通过吸收行为事件来帮助其发布者进一步利用该数据。
在过去的几年中,由于存在用户隐私风险,因此已经不再依赖第三方数据。像G.D.P.R.欧洲和加利福尼亚的C.C.P.A.已开始影响网站处理用户数据的方式,包括广告技术软件可以在多大程度上使用第三方Cookie。同样,最近流行的浏览器(例如Safari,Firefox和Chrome)阻止第三方Cookie的使用已促使广告行业寻找可以投放相关广告并同时尊重用户隐私的替代方案。
2020年6月,《纽约时报》针对我们的直销广告业务推出了一项广告数据计划,该计划使用了我们自己的数据和数据科学技术。这项第一方计划是我们对不断变化的在线广告数据格局的回应,也是我们为更好地保护读者的隐私而采取的行动的一部分。我们的计划不依赖第三方数据或Cookie,而是仅关注读者在我们的网站和移动应用上的行为。
尽管DMP能够提供无需第三方Cookie即可运行的其他解决方案,但《泰晤士报》选择构建内部解决方案,以便我们可以控制数据和受众群体的目标,并随着需求的变化而变得灵活。
在过去的几年中,《泰晤士报》建立了一个分析系统,以捕获我们网站和移动应用程序中数百万个行为事件。由于我们使用Google Cloud Platform作为云服务提供商,因此我们选择Google Cloud Dataflow将这些事件几乎实时地流式传输到Google BigQuery中。然后将所有事件数据进行批处理,然后输入到多个机器学习模型中,这些模型是由Times数据科学家专门为此广告程序建立的。
机器学习模型主要基于读者的详细调查反馈。数以万计的读者自愿参加调查,并明确传达了所收集的信息将用于改善《纽约时报》的广告。我们的数据科学同事能够使用调查数据以及我们的数字参与事件数据来训练能够准确预测用户所属细分市场的模型。每个部分都要求使用不同的监督学习方法(包括回归,排名,分类和多类分类),以确保我们获得的结果具有统计学上的预测性和可解释性。
这些机器学习模型的输出被推送到一组BigQuery表中,这些表使用Airflow进行了编排。为了建立更全面的用户组合,除了我们的机器学习模型之外,Airflow流程还包括许多其他行为数据点。然后,使用Google的一系列技术将这些BigQuery表中的数百万行推送到我们的激活系统中。
我们的激活系统是高度可扩展的Go微服务,依赖于Google Cloud Memorystore来缓存我们收集的所有用户数据。每当用户访问网络或我们的一个移动应用程序中的“时间”页面时,就会调用这些微服务,并将广告定位数据推送到该页面中,平均延迟时间不到100毫秒。用户数据显示在页面上后,JavaScript广告框架将读取该数据并将其传递到广告服务器。广告服务器找到最相关的广告系列,并在广告系列的定位条件与从页面传递的数据匹配时将其投放。
由于处理和数据激活发生在服务器端,因此我们能够轻松扩展到所有浏览器,包括Safari和Firefox,以及移动应用程序。服务器端处理对于使我们的前端Web和移动应用程序更轻,更快而言尤其重要。
自6月份启动该计划以来,我们发现针对第一方数据的广告系列的效果与针对第三方数据的广告系列的效果相同。无论它们当前的Cookie和跟踪状态如何,我们都可以定位到所有平台和浏览器,这为我们提供了更大的扩展空间。由于我们完全控制数据,因此我们可以更好地保护读者在浏览我们的网站和应用程序时的隐私。这使我们相信第一方数据是针对受众群体的可靠选择。
该计划的主要重点是我们的直接销售广告业务。程序化广告是我们广告业务的重要组成部分,我们希望作为单独的工作流进行改进,重点是试验和测试AdTech行业中提出的可以替代第三方Cookie的不同解决方案。为了在未来几年内围绕程序广告的新标准进行对话,我们加入了由W3C运营的Improving Web Advertising Business Group。
我们将通过使用户数据处理更加实时,改进机器学习模型并寻找进一步丰富我们的上下文和受众数据的方式(同时将用户隐私作为最高优先级)来继续投资,以扩展该程序。