草图算法以一种仍然对回答某个预先指定的查询族有用的方式压缩数据,可能是通过比较草图来跨越数据集。本课程将涵盖开发此类算法的严格数学模型,以及在这些模型中运行的算法的一些可证明的限制。涵盖的一些主题包括:
流传输算法。在一个数据集上计算有用的统计数据,只需遍历一次,而占用的内存很少。
降维。在保持几何结构的同时降低数据维数的一般技术和不可能性结果。
随机线性代数。大型矩阵的算法(例如Netflix或Amazon的用户/产品评级矩阵)。回归、低阶逼近、聚类等。
这是一门研究生课程,尽管满足以下先决条件的高级本科生可能是有限的:数学成熟度和对算法的熟悉程度(例如CS 170)、离散概率和线性代数。