用于研究和反向工程算法推荐系统的自动化工具

2020-12-23 21:22:26

Persine是研究和对算法推荐系统进行反向工程的自动化工具。它具有简单的界面并鼓励可重复的结果。您告诉Persine绕YouTube行驶,它会返回一个电子表格,其中包含YouTube建议您观看的内容!

人们建议,如果您观看一些轻松的政治视频,YouTube会开始建议越来越多的极端内容-真的吗?

该理论很难测试,因为它涉及很多无聊的点击,而且YouTube已经知道您通常会看什么。 Persine进行救援!

您提供了要观看的视频列表和单击的按钮(喜欢,不喜欢,&nextup"等)

完成所有操作后,Persine会将您的上弦路径以及视频/播放列表/频道建议保存到精美的CSV文件中。

除了分析之外,这些文件还可用于稍后再次重复实验,查看建议是否随时间,位置,用户历史记录等发生了变化。

如果您没有获得足够的数据,请不要担心–您可以稍后继续进行探索,从停下来的地方继续。由于每个" persona"基于Chrome个人资料,您的所有Cookie和历史记录都将安全存储,直到您下次运行。

Persine将自动安装Selenium和BeautifulSoup进行浏览/抓取,安装Pandas进行数据分析,并安装枕头来处理屏幕截图。

您将需要安装chromedriver,以允许Selenium控制Chrome。没有它,Persine将无法工作!

在OS X上安装chromedriver:听说您可以使用自制软件安装它,但是我从来没有做过!您也可以点击上面的链接,然后点击“最新稳定版本”。链接,然后下载chromedriver_mac64.zip。解压缩它,然后将chromedriver文件移到您的PATH中。我通常将其放在/ usr / local / bin中。

在Windows上安装chromedriver:点击上方的链接,点击“最新稳定版本”。链接。下载chromedriver_win32.zip,解压缩,然后将chromedriver.exe移至PATH(出于无政府状态的考虑,我将其放在C:\ Windows中)。

在此示例中,我们通过访问YouTube视频并单击“下一步”来开始新的会话。录制三遍视频,看看它将我们引向何方。然后,我们保存结果以供以后分析。

Persine围绕一个引擎构建,该引擎存储您的所有全局设置以及代表浏览网络的各个用户的角色。

默认情况下,角色是一次性使用的,并且在您的脚本运行后,其浏览历史记录将被丢弃。不过,如果您给他们起一个名字,他们会保存他们的浏览/推荐历史记录,以便您稍后再恢复。

这与登录YouTube(请参阅下文)结合使用时非常有用,可让您模仿真实用户观看多个会话的视频。

如果您希望获得更多控制权或一站式访问网站,则可以在完成后手动调用.quit()。

我们可以关闭还是关闭无头模式,具体取决于我们是否要实际观看Chrome的功能。在非无头模式下运行时,Persine会自动安装uBlock Origin,因此您无需处理广告。

无头模式不支持扩展程序,因此默认情况下,我们的隐形Chrome浏览器很不幸地正在观看广告。我们可能应该切换到Firefox,但是它有其自身的问题。

历史记录是您运行过的所有命令和访问过的页面,而建议则是建议的内容。建议包括视频补充工具栏,主页列表和搜索结果。

目前的建议还包括广告和不相关的促销内容。我对他们应该留下还是走出去感到不安。

如果您希望在其他地方进行分析,则可以将其保存到CSV文件中。

桥接器是特定于站点的刮板,可告诉Persine单击什么,刮除什么以及其他特定于站点的命令。 目前,我们唯一完成的桥梁是YouTube,而亚马逊正在建造桥梁。 开始登录过程。 您需要手动完成该过程,但是Persine会在通知您登录后立即恢复。 如果您想重复执行多次,可以在其后附加#[NUMBER]。 例如,youtube:next_up#50将观看接下来的50个&next up" 视频。