这篇文章的目的是介绍和讨论过去十年中几个有趣的研究程序。研究计划(或一个程序)是指具有相似假设,方法等的共同研究线程。以下列表包含各种研究程序:一些涉及广泛主题的研究,例如:可解释的机器学习和精神障碍;其他人则转移了整个行业的方向,例如计算机视觉和加密货币的进步;而其他一些仍然是我更感兴趣的利基领域,例如拓扑学习理论,对ML模型的隐私攻击以及认识论的图论方法。
显然,这种多样性的清单永远无法完成,并且肯定会因我所阅读的内容而有所偏差。如果我错过了您喜欢的有趣事物,请通过[email protected]与我联系。请享用!
对于我而言,要首先列出最影响我的职业生涯,导致(或至少加速发展)数据科学繁荣并可能解冻AI寒冬的领域,就很难开始。在2010年代,深度学习在启发式方法和应用程序方面取得了巨大进步。特别是对于计算机视觉而言,一个很好的起点是2012年的AlexNet,它使用卷积神经网络(CNN)架构大大超越了现有的图像识别基准-为图像分配标签(例如猫,狗或树)的任务-在ImageNet数据集上。在接下来的几年中,VGG,ResNet和Inception等架构将继续改进。
随着识别技术的进步,诸如对象检测(在图像中查找并标记对象(有时是多个对象))之类的其他任务变得更加可行。在2013年区域CNN(或R-CNN)中引入的一种对象检测方法是结合一个模型,该模型首先产生有希望的边界框,然后利用新开发的识别模型(从AlexNet开始)对边界框中的区域进行分类或标记。在接下来的几年中,通过Fast R-CNN和Faster R-CNN实现了这一方向的进步。这些框架不仅采用了更好的识别模型并找到了更好的边界框,而且将模型组件集成在一起,从而可以对其进行更有效的培训或量身定制。这是这些模型的出色概述,但有更多细节。
伴随着这些新技术和改进的是大量软件-首先使用TensorFlow,Caffe和Torch,然后使用更加用户友好的Keras-任何人都可以针对其用例实现这些模型。还值得一提的是,诸如fast.ai的“面向程序员的实用深度学习”之类的在线课程激增了,从而促进了潜在用户加快测试和部署这些工具的速度。
拓扑学习理论是对假设/问题的可学习性/可解决性的数学研究,它是通过计算理论和描述性集合理论(而不是经典统计学(采用统计学习理论))提供的信息。学习理论的思想是分析假设的可学习性,因为人们逐渐接受有关世界真实状态的信息。
一个典型的例子是让鸟类学家观察乌鸦的颜色,例如是否为黑色。每次观察乌鸦,鸟类学家都会获得信息,这些信息排除了某些假设,但与其他假设一致。通过将黑色乌鸦编码为1,将其他乌鸦编码为0,我们可以在数学上将可能的观察历史表示为0和1的无穷序列,即Cantor空间中的点。这种方法的症结在于Cantor空间和其他此类空间上的拓扑自然地编码了信息积累的思想。通过考虑假设的描述复杂性,通过使序列成立的假设来确定假设,我们可以说出关于假设的可学习性的事情。例如,假设“所有乌鸦都是黑色的”是包含所有1的单个序列的集合。我们说这个假设是可以证伪的,因为如果有一个非黑乌鸦,我们的鸟类学家将最终观察到它。但是,它是可验证的,而不是在有限的时间内,而是在极限内,因为在进行任何数量的观察之后,该假设永远不会成立。这对应于正确地是$ F _ {\ sigma} $或$ \ Sigma ^ {0} _ {2} $集的拓扑概念。
Warning: Can only detect less than 5000 characters
形式认识论是使用数学工具研究知识和信念的哲学领域。表示信念的一种方法是通过有向图,其中节点是信念,而边是从一种信念到另一种信念的推论支持关系。例如,对于信念$ P,Q $,我们可以说如果给定代理的信念$ P,Q $和$ Pr(P \ mid Q)都大于$ QP $,则给定代理的信念之间存在一个边缘$ QP $。 \ alpha $用于某些$ \ alpha> 0.5美元。
在2007年发表的一篇名为《 Infinitism Regained》的论文中,Jeanne Peijnenburg展示了这些概率在某些条件下对无限信念链的明确定义,从而迈出了文学的第一步。这驳斥了对非正式认识论中的不定式的普遍概念性反对。 Peijnenburg与David Atkinson一起在该十年的上半年发表了大约十二篇论文,提出了一种理论,用于将信念之间的关系结构与条件概率定义得当相关。有条件概率无穷大的论文证明就是这一类的代表。这项研究以2017年的专着《衰落基金会》(Fading Foundations)达到了高潮,该论文将其研究结果整合到一个连贯的故事中,并进行了比论文中更多的阐述。
值得一提的是,该领域的第二个研究方向来自Selim Berker在2015年发表的论文《通过图的相干性》。伯克(Berker)避开了条件概率关系,取而代之的是提出了一个说明,该说明认为需要复杂的图结构(例如超图)来表示信念的合理性结构。
我目前正在研究运用无限图论(特别是无限循环)的思想来探索信念和回归问题的图论表示。这是我在“精确哲学学会”会议上发表的最新演讲。
该条目的结构比其他条目更为松散,围绕两部分系列文章构建:《科学乌托邦I:开放科学传播》和《科学乌托邦II:重组激励措施和实践,以促进关于可发布性的真相》。第一部分介绍了交流科学成果的分散愿景,并提出了达到此状态的步骤,例如允许公开访问所有已发表的论文(其模型类似于arXiv),以及广泛发表对研究文章的同行评审和评论。关于后者,作者强调,这些贡献常常未被承认和奖励。在《没有裁判的世界》中,拉里·瓦瑟曼(Larry Wasserman)反对了这一愿景的普遍反对意见:
“如果最终论文泛滥而又那么聪明,那么进取心的人们将通过创建网站和博客来回应,这些网站和博客可以告诉您那里的内容,评论论文等。这是一种更加开放,民主的方法。”
第二部分调查了使发布的统计结果更可靠的方法,并提供了其他措施,例如在收集数据之前注册研究协议,降低发布障碍以及使共享数据成为规范(在可行时)。考虑到可再现性危机和方法论批评,例如盖尔曼(Gelman)和洛肯(Loken)的《叉路花园》(Garden of Forking Paths),这是特别有先见的。尽管取得了进展,但尚不清楚发布统计分析的未来会是什么样。
隐私攻击是指攻击者尝试通过访问模型来学习有关机器学习模型的信息的情况。对手对模型的访问程度可能有所不同。例如,人们可以从发表的论文或软件文档中恢复线性模型的系数,并且知道完整的模型,或者如果将模型部署为SaaS产品,则可以调用API来对数据进行评分。
但是,对手可以尝试学习哪些有关模型的信息?模型反转攻击试图重新创建部分训练数据或学习给定记录的敏感属性。遗传药理学的隐私:2014年针对个性化华法林剂量的端到端案例研究引入了一种方法,用于学习有关一个人的敏感信息,例如他们是否从可预测某种可观察事物的药代学模型中获得某某某类遗传标记-在这种情况下,根据遗传标记和人口统计信息,确定最佳的华法林剂量。在安全方面,作者讨论了使用差异隐私防御此类攻击的前景。
模型提取攻击试图从部分信息中重建模型。从2016年开始,通过Prediction API窃取机器学习模型引入了重构线性模型和决策树的方法-在某些情况下是完全准确的重构-在分类器的情况下,除了在查询中提供标签之外,还向对手提供了置信度得分。属性推断攻击试图学习训练数据的聚合属性,这些属性未明确地编码在数据本身中。从2015年开始使用更聪明的人入侵智能机器,这是在语音识别的背景下进行的攻击-将音频转录为文本的任务-预测给定的模型是否使用带有印第安裔口音的录音进行了训练,而这种财产可能不会并且可能没有明确指出。
该领域的当前研究着眼于使这些攻击形式化的方法,以更好地理解各种机器学习模型的相关安全性以及如何总体上抵御这些攻击。
如果不触及比特币,区块链和加密货币生态系统这一风潮,我就无法结束这份名单。在短时间内,有关交易加密货币和某某公司的新区块链计划的消息令人窒息。我敢肯定,每个人都有这样的同事,他们的午餐时间不多,并推迟了他们的学生贷款,以太坊代币和比特币期货为他们的投资组合加油。
我对这种现象的文化方面更感兴趣,而不是技术创新和其他什么。大卫·杰拉德(David Gerard)的《 50英尺区块链的攻击》(也见于2018年我的畅销书)和同一个标题的博客,对于了解和记录具有密码朋克起源,持续不断的骗子和恶作剧的加密货币文化是宝贵的资源。
我还想向您指出Kai Stinchcombe在区块链上的热点(或者说是冷水),这是一种实用技术,公司可以将其内置到其产品中,或者可以在社会上大规模使用。
我从中获得并希望其他人也能做到的区块链热潮的一个积极成果是接触新思想和挑战。 就我而言,其中包括对硬件问题进行故障排除,例如必须使用螺丝刀作为采矿设备的电源按钮,摆弄GPU和负载平衡器(考虑到深度学习的共同进步,这一点很流行)以及吸收一些加密技术 一路上。