一个又一个素数

2020-06-08 23:26:40

质数是否像被风吹来的种子一样随机地撒在数字线上?当然不是:质数不是偶然的问题,而是简单算术的产物。当且仅当1以外的正整数除以一个数时,该数才是质数。

然而,这并不是故事的结束。质数的分布看起来是随机的,有不规则的间隙和簇,看起来相当随意。如果有一种模式,那就是高深莫测的。事实上,素数看起来足够随机,你可以用它们来掷骰子。列出一系列连续的质数(可能以11,13,17,19,.。。。)。把它们减去模7。换句话说,把每个素数除以7,只保留余数。结果是从集合{1,2,3,4,5,6}中抽取的一系列整数,看起来很像重复掷出一个公平骰子的结果。

$$\BEGIN{ALIGN*}11\bmod 7&;\right tarrow 4\qquad 47\bmod 7\right tarrow 5\\13\bmod 7&;\right tarrow 6\qquad 53\bmod 7\right tarrow 4\\17\bmod 7&;\right tarrow 3\qquad 59\bmod 7\right tarrow 3\\19\bmod 7&;\right tarrow 5\qquad 61。\right tarrow 1\qquad 71\bmod 7\right tarrow 1\31\bmod 7&;\right tarrow 3\qquad 73\bmod 7\right tarrow 3\\37\bmod 7&;\right tarrow 2\qquad 79\bmod 7\right tarrow 2\\41\bmod 7&;\right tarrow 6\qquad 83\bmod 7\right tarrow 6\\43\bmod。

使用更大的样本(大于\(10^7\)的前一百万个素数),我已经计算出6个可能的余数mod 7(也称为6个可能的同余类mod7)的素数。我还模拟了一百万卷六面骰子。看这两个练习的结果,你能分辨出哪个是哪个吗?

1 2 3 4 5 6 166,787 166,569 166,714 166,573 166,665 166,692 120-98 47-94-2 25 1 2 3 4 5 6 166,768 166,290 166,412 166,638 167,282 166,610 101-377-255-29 615-57。

在每个表中,第一行计算六个类别中每个类别的结果数\(x\);第二行显示差异\(x-\bar{x}\),其中\(\bar{x}\)是平均值1,000,000/6=166,667。在这两种情况下,数字似乎分布得相当均匀,没有任何明显的偏见。第一个表表示素数剩余mod 7,它们的分布比模拟骰子更平坦,与平均值的偏差较小,两个样本的标准偏差分别为84和346。根据这些表格的证据,看起来这两个过程都可以提供一场随意的骰子游戏所需的随机性。

然而,除了确保结果均匀分布在允许的范围之外,还有更多的随机性。系列中的各个事件也必须彼此独立。一次掷骰子应该不会影响下一次掷骰子的结果。作为独立性的测试,我们可以观察成对的连续事件。1后跟1、2、3,以此类推是多少次?6×6矩阵用于记录36个可能对的计数。如果这个过程真的是随机的,除了小的统计波动之外,所有36对都应该是同样频繁的。我们可以将矩阵转换成颜色编码的“热图”,其中计数高于平均值的单元格显示为粉红色和红色的暖色调,而低于平均值的单元格显示为较冷的蓝色色调。(绘制的数量不是实际计数\(x\),而是归一化变量\(w=(x_{i,\,j}-\bar{x})\,/\,\bar{x}\),其中\(\bar{x}\)也是平均值-在本例中为1,000,000/36=27,778。)。以下是模拟平头骰子的热图:

那里没什么事。几乎所有的计数都非常接近平均值,以至于矩阵单元显示为中性灰色;少数是非常淡的粉色或蓝色。如果连续的掷骰子是不相关的,并且所有可能的对都是平等的,这就是你所期望的。

井!。我想我们不再是在兰多姆兰了;这就是旧的灰色电影变成彩色的地方。热图沿主对角线(从左上角到右下角)有一条蓝色条纹,表示具有相同值mod 7的连续素数对被强烈抑制。换句话说,配对\((1,1),(2,2),\l点(6,6)\)出现的频率比它们在真正随机序列中出现的频率要少。超对角线(恰好在主对角线上方)是浅蓝色的,这意味着具有(j=i+1)的((i,j))对的频率略低于平均频率;例如,((2,3)和((5,6)的归一化频率略为负值。另一方面,次对角线(在主对角线下方)全部是粉红色和红色的;\((3,2)\)或\((5,4)\)等具有\(j=i-1)的配对出现的频率高于平均频率。离开对角线,在右上角和左下角,我们看到一个柔和的棋盘图案。

如果你更喜欢眯着眼睛看数字,而不是彩色方块,下面是基本矩阵:

相继素数对mod 7 1 2 3 4 5 6 1 15656 24376 33891 29964 33984 28916 2 37360 15506 22004 32645 25095 33959 3 25307 41107 14823 22747 32721 30009 4 32936 26183 37129 14681 21852 33791 5 32936 32936 32936。

与统一性的背离一点也不微妙。例如,第三行显示,如果你刚刚看到素数mod 7序列中的3,那么下一个数字更有可能是2,而不是另一个3。如果你是在用质数骰子下注,这种偏向可能会对结果产生巨大的影响。最好的骰子都被操纵了!

斯坦福大学(Stanford University)的罗伯特·J·莱姆克·奥利弗(Robert J.Lemke Oliver)和坎南·索德拉扬(Kannan Soundarajan)发现了两对连续质数之间的这种非常强的相关性,他们在3月份发布给arxiv的预印本中对此进行了讨论。我发现这一发现最令我惊讶的是,很久以前没有人注意到这些模式。一旦你知道如何寻找它们,它们肯定是足够显眼的。

我想我们不能责怪欧几里得错过了它们;关于随机性和概率的思想在古代并没有很好地发展起来。但是高斯呢?他是素数表的鉴赏家,他编制了自己的数千个素数表。在他年轻的时候,他写道,“我最早的项目之一是把我的注意力转移到质数频率的下降上,为此,我在几个辣椒中数了素数。”。。.“。此外,高斯更少地发明了同余类和模算术的思想。但显然,他从未怀疑过在两对连续素数的同余中可能潜藏着什么奇怪的东西。

19世纪50年代,俄国数学家Pafnuty Lvovich Chebyshev指出了素数中的一个微妙偏差。将奇素数减为模4会将它们分成两个子集。序列5、13、17、29、37中的所有素数。。。与1mod4同余;序列3、7、11、19、23、31、.。。。切比雪夫观察到后一类素数似乎更为丰富。例如,在前一万个奇素数中,有4943个素数与1一致,5057个与3素数相同。然而,与连续两个素数对的差异相比,这种影响微乎其微。

在现代,少数作者报告了连续素数现象的一瞥;Lemke、Oliver和Soundarajan提到了三次这样的目击事件。(请参阅本文末尾的参考资料。)。在20世纪五六十年代,斯坦尼斯瓦夫·克纳波夫斯基(Stanislaw Knapowski)和保罗·图兰(Paul Turán)研究了素余数modm的各个方面;在1977年发表的一篇论文中,他们讨论了剩余数为1或3的连续素数mod 4。他们“猜测”,具有相同剩余数的连续素数对和具有不同剩余数的连续素数对“概率不相等”。2002年,高忠明研究了连续素数序列(而不仅仅是成对的素数),并根据它们的不同频率构建了精细的分形图案。然后在2011年,Avner Ash和他的同事发表了一项对“连续质数残基对的频率”的扩展分析,其中包括一些矩阵,在这些矩阵中,对角线凹陷明显。

鉴于这些先例,Lemke Oliver和Soundarajan真的是连续主关联的发现者吗?在我看来,答案是肯定的。虽然其他人可能以前见过这些模式,但他们并没有以数学界意识到的方式来描述它们。事实上,当Lemke Oliver和Soundarajan宣布他们的发现时,人们的反应令人惊讶,近乎怀疑。埃里卡·克拉里奇(Erica Klarreich)在“广达”(Quanta)上撰文引用了牛津大学数字理论家詹姆斯·梅纳德(James Maynard)的反应:

当Soundarajan第一次告诉梅纳德这对夫妇的发现时,梅纳德说:“我只有一半相信他。”“我一回到办公室,就亲自做了一个数值实验来验证这一点。”

显然,这是一种常见的反应。伊夫林·兰姆在“自然”杂志上撰文,引用Soundarajan的话说:“我们告诉过的每一个人最终都会编写自己的计算机程序来自己检查。”

嗯,我也是!在过去的几周里,我一直在钻研大量的代码来分析素数mod m。下面是我试图理解这些模式从何而来的记录。我的方法更多的是计算和视觉,而不是数学;我不能证明任何事情。Lemke、Oliver和Soundararajan采用了更严格和更具分析性的方法;我将在本文末尾更多地介绍他们的结果。

如果您想发起您自己的调查,欢迎您使用我的代码作为起点。它是用Julia编程语言编写的,打包在Jupyter笔记本中,可以在GitHub上找到。(顺便说一句,这个程序是我与朱莉娅的第一次不平凡的实验。(我将在稍后的帖子中更多地介绍我使用该语言的经验。)。

上面给出的所有例子都涉及取模7的素数,但这里的数字7没有什么特别之处。我之所以选择它,仅仅是因为六个可能的余数{1,2,3,4,5,6}与普通立方体骰子的面相匹配。其他模给出类似的结果。Lemke Oliver和Soundararajan使用模3素数进行了大量分析,其中只有两个同余类:大于3的素数在被3整除时必须留下1或2的余数。这是\(10^7)以上的前一百万个素数的对计数矩阵:

该模式相当简约,但仍然可识别:序列\((1,2)\)和\((2,1)\)的非对角线条目比序列\((1,1)\)和\((2,2)\)的对角上条目大。

模为10的素数有四个同余类:1,3,7,9。使用十进制记数法,我们甚至不需要做任何算术就能看到这一点。当以10为基数书写数字时,每个大于5的素数都有一个尾数位1、3、7或9。以下是16对连续尾数位的频率计数:

1 3 7 9 1 43811 76342 78170 51644 3 58922 41148 71824 78049 7 64070 68542 40971 76444 9 83164 63911 59063 43924。

主对角线上的蓝色条纹清晰可见,尽管矩阵中其他地方的图案有些柔和和模糊。

我发现,当模数本身是素数时,连续素数之间的相关性表现得最明显,而且也不是太小。看看连续素数mod 13和mod 17的热图:

这些可以做被子或瓷砖地板的很好的图案,不是吗?所有这些都有有趣的规律可见。不仅在主角对角线上,而且在整个矩阵上,对角线条纹都很突出。这些条纹还会生成一个棋盘图案;沿着任何行或列,单元格往往会在红色和蓝色之间交替。一个更微妙的特征是对角线(从左下角到右上角)的近似两侧对称。如果你沿着这条线折叠正方形,聚集在一起的单元格在颜色上会非常匹配。(这是Ash和他的合著者注意到的事实。)。

作为进一步分析的重点,我决定查看连续素数mod 19,该模数大到足以产生清晰的区分条纹,但又不会大到使矩阵不好看。

如何理解我们所看到的?起始点是观察到我们样本中的所有素数都是奇数,因此这些素数之间的所有间隔都是偶数。对于任何给定的素数\(p\),下一个素数候选者是\(p+2,p+4,p+6,\ldots\)。这会不会和棋盘图案有关?如果素数之间的步长必须是2的倍数,那么肯定会在给定列或行中的每两个单元格之间创建相关性。(事实上,如果模数为偶数,则每隔一个单元格之间的相关性将非常明显-所有偶数编号的条目都将恰好为零。只有通过在奇数边界处“缠绕”矩阵的边缘,才能填充任何偶数编号的单元格。)。

矩阵中的对角条纹表明由一定数值间隔分隔的所有素数对之间有很强的相关性。例如,最深的蓝色对角线和最亮的红色对角线是由沿j轴相隔6个位置的单元格形成的。第一行是单元格1和7,然后是2和8、3和9,依此类推。我突然想到,如果我能“扭曲”矩阵,让对角线变成列,这种关系会更容易理解。其思想是对每一行应用循环移位;该行中的所有值都向左滑动,而从左边缘掉下的值重新插入到右边。第一行移位零个位置,下一行移位一个位置,依此类推。(这个转换有名字吗?我只是说这是一种转折。)。

当我编写应用此转换的代码时,结果与我预期的不太一样:

沿对角线的那些之字形是什么?我猜我一定是出了差错。事实上,这就是问题的本质,尽管问题出在数据上,而不是算法上。我在上面所有图中显示的矩阵只是部分的;它们抑制了空的同余类。特别地,模数为19的素数对的矩阵忽略了与0模数19相同的所有素数-基于听起来合理的理由,即没有这样的素数。毕竟,如果\(p>;19\)和\(p\equv 0\bmod 19\),则\(p\)不是素数,因为它可以被19整除。然而,\(p>;0\bmod 19\)的一行和一列确实是矩阵的一部分。如果将它们包括在内,颜色编码的画面如下所示:

零行和零列的存在使得扭曲变换的定义更加整洁:对于每一行\(i\),应用\(i\)位的向左循环移位。由此产生的扭曲矩阵也更加整洁:

这些垂直条纹告诉我们什么?在原始矩阵中,条目\(i,j\)表示\(i\bmod 19\)后跟\(j\bmod 19\)的频率。这里,单元格\(i,j\)中的颜色表示\(i\bmod 19\)后跟\((i+j)\bmod 19\)的频率。换言之,每列将两个素数之间具有相同间隔mod 19的条目聚集在一起。例如,最左边的列包括由长度为\(0\bmod 19\)的间隔分隔的所有对,而位于\(j=6\)处的鲜红色列计数连续素数被\(6\bmod 19\)分隔的所有情况。

颜色编码给人以或多或少可以看到的间隔的定性印象。对于更精确的定量度量,我们可以沿列求和,并在条形图中显示合计:

上面提到的奇偶差异在这张图中也清晰可见。除了0之外,每个偶数间隔都比它的奇数邻居突出。

6/19的素数间隔是所有间隔中最受欢迎的。6的倍数(即12和18)也很受欢迎,但不太受欢迎。

区间0/19非常不受欢迎。这些是沿着原始矩阵的主对角线的条目,所以它们的总和偏低也就不足为奇了,但是赤字比我预想的要深。

我想了解这些图案的起源。是什么使得区间6如此吸引一对连续的素数呢?为什么几乎所有的素数都避开了差的区间0呢?

对于6的受欢迎程度,我已经略知一二。20世纪90年代,安德鲁·奥德利兹科(Andrew Odlyzko)、迈克尔·鲁宾斯坦(Michael Rubinstein)和马雷克·沃尔夫(Marek Wolf)对主要的“跳跃冠军”

如果整数D是某个x的连续素数≤x之间出现频率最高的差,则称其为跳跃冠军。

在最小的素数(x小于约600)中,跳跃冠军通常是2,但之后6会接手并在相当长的一段数字线上占据主导地位。在\(x=10^{35}\)附近的某个地方,6将冠军让给30,最终让位给210。Odlyzko等人。估计后一个转变发生在\(x=10^{425}\)附近。这个跳跃冠军序列中的数字-2,6,30,210,。。。-是素数;第n个素数是前n个素数的乘积。

为什么素数应该是连续素数之间最受欢迎的间隔呢?如果p是一个足够大的素数,则p+2不能被2整除,p+6不能被2或3整除,p+30不能被2、3或5整除,并且一般不能被前n个素数中的任何一个整除,其中P_(n})是第n个素数,则p+P_(n})不能被前n个素数中的任何一个整除。如果p是足够大的素数,则p+2不能被2或3整除,p+30不能被2、3或5整除,并且一般不能被前n个素数中的任何一个整除。当然,\(p+P_(n})\)仍然可能被某个较大的素数整除,或者在\(p\)和\(p+P_{n}\)之间可能存在另一个素数,因此不能保证素数区间是原数。但这些间隔期比其他竞争者更有优势。

我们可以通过获取一百万个八位素数列表中连续元素之间的差异,然后绘制它们的频率图来看到这一推理的实际效果:

同样,区间6是明显突出的,占总数的13.7%;6的较高倍数也高于它们的近邻。注意分布的整体形状:左边有一个肿块(峰值在6),然后是稳定的下降。这个趋势看起来有点像泊松分布,事实上,这被认为是正确的描述。

配色方案将数据集分成若干部分,每部分19个值。蓝色部分,包括长度为0到18的素数间间隔,占100万素数样本中所有间隔的68%;黄金部分又增加了23%。剩下的9%分布广泛而稀疏。并不是所有的间隔都显示在图中;频谱延伸到210。(样本中的一对连续素数的间隔为210,即20,831,323和20,831,533。)。

图13似乎揭示了许多关于连续素数mod 19的模式。我可以通过简单的重新排列使该图更具信息性。将每19个元素的部分向左滑动,直到它与0部分对齐,将落在同一列中的条形堆叠在一起。因此,第二部分(黄金)向左移动,直到19号杆与0号杆对齐,第三批(玫瑰)牌将38号杆与0号杆连在一起。在物理上,这个过程可以想象为将图形绕着圆周19的圆柱体缠绕;从数学上讲,它相当于减少了模数为19的素数间隔。

如果忽略艳丽的颜色,图14与图12完全相同:所有条形高度都匹配。这不应该令人惊讶。在图12中,我们将素数减去模19,然后取连续减去的PRI之间的差值。

..