GWERN：互联网搜索提示

2021-04-18 18:12:33

随着时间的推移，我开发了一定的Google-Fu和在线寻找参考文献，论文和书籍的专业知识。其中一些技巧尚不知之甚少，就像检查互联网档案（IA）的书籍。我试图写下我的搜索工作流程，并提供关于查找和托管文件的一般建议，并具有示范案例研究。

Google-fu搜索技能是自从小学以来我自己骄傲的东西，当图书馆员挑战课堂上的班主任中的东西;我不经常，我赢了。我仍然可以记住它在高中时的确切时刻，我的余生中的大部分都会花在处理搜索，工资空间和破碎的链接。互联网是最伟大的历书，和好奇，一个永无止境的聚宝盆，让我感到非常难过，看到许多失败后粗略搜索或不看都找东西。对于大多数人来说，如果不是谷歌/谷歌学者的第一次击中，则它不存在。下面，我揭示了我最好的互联网搜索技巧，并尝试提供如何进行在线搜索的粗略流程图，解释了搜索福的微妙技巧和直觉。

做或不做;没有尝试。当你有一个问题时，你必须做的第一件事是养成搜索的习惯：“谷歌是你的朋友”。您唯一保证失败的搜索是您从未运行的搜索。（）

了解您的基本布尔运营商＆amp;密钥G搜索运算符：精确匹配的双引号，否定/排除的连字符，以及站点：用于搜索该网站的特定网站或特定目录（例如foo站点：gwern.net/docs/genetics/）。您可能还想使用高级搜索以了解可能的内容。（有更多的G搜索运算符（Russell描述），但它们不一定值得学习，因为它们实现了深奥功能，并且大多数似乎是越野车1.）

使用提示和复制粘贴选择缓冲区启用某种热键搜索，然后将Google（G）/ Google Scholar（GS）/维基百科（WP）搜索到反射中。 2你应该能够本能地搜索变得好奇的瞬间，有几个击键。（如果在没有其他人注意到你的暂停的情况下，你不能使用它，那就不够快。）

示例工具：Autohotkey（Windows），QuickSilver（Mac），XClip + Surfraw / Stumpwm的搜索引擎/ XMONAD的Actions.Search/ Hake.Shell（Linux）。 DuckDuckGo提供“刘海”，在发动机内部专项搜索（最相当于一种谷歌网站：搜索），可以类似地使用或与提示/宏/热键组合使用。

我致力于使用我写的XMONAD Hotkeys，它给了我窗口管理器快捷方式：在使用任何程序时，我可以突出显示标题字符串，然后按Super-Shift-y打开当前选择作为GS搜索即时的新的Firefox选项卡;如果我想编辑标题（也许添加作者姓氏，年或关键字），我可以选择提示，super-y，用c-y粘贴，并在\ n启动搜索之前编辑它。可以想象，这对搜索许多文件或搜索来说是非常有帮助的。（这些快捷方式有浏览器等同物，但我不喜欢它们，因为如果您在浏览器中只能工作，通常需要更多的击键或鼠标使用，并且通常不支持热键或搜索复制粘贴选择缓冲区：Firefox ，铬合金）

为了在结果和条目集之间导航，您应该有良好的标签Web浏览器命令。您应该能够转到地址栏，在选项卡中向左/向右移动，关闭选项卡，打开新的空白选项卡，转到特定选项卡等（分别在Firefox中：CL，C-PGUP，C-PGDWN， CW，CT，M- [1-9]。）

推出您的搜索，大概是Google Scholar，您必须导航GS结果。对于GS，它通常像右上角的[PDF]或[HTML]链接一样简单，该链接表示（GS认为是什么）全文链接，例如：

GS：如果没有右上角的全文，请寻找软墙。在GS中，请记住，“[]”链接并不总是表示全文链接！用手检查顶部命中：通常有“软墙”阻止了Web蜘蛛，但仍然可以让您下载FullText（可能在大量的麻烦之后，喜欢）。

请注意，GS支持其他有用的功能，如搜索查询的警报，用于引用特定文件的任何内容，以及反向引用搜索（以便在纸上跟踪，以查找其批准或批评IT的批评）。

对于报价/描述搜索：如果您没有标题并倒回搜索引号，请尝试对标题进行不同的调查：

短引号是唯一的：不要搜索太长的报价，句子或两者通常足以近乎独特，并且可以有助于调出其他可能有更好的块的其他消息来源。

：因为即使是短语也可以是唯一的，所以尝试来自一个大报价的多个子报价，尤其是从开头和结束，这可能与具有先前或后续段落的引号重叠。

：搜索奇怪的短语或单词，尤其是数字。 3或4个关键字通常足够。

：寻找原始文本中的段落，它们可能基于相同的来源，特别是如果他们只是在没有任何提示的情况下被删除，并且听起来不像作者一样;作者通常不会引用它们在源上绘制的每次绘制，通常只有第一次，在编辑“首次”时，源的外观很容易被移动到文本中的稍后。所有这些额外的用途都可以添加到搜索中。

强大的行情：您正在战斗中文耳语的游戏，因此寻找独特的声音句子和术语，可以在重复传输中乱画。

一个神经元在多年来另一个神经元告诉另一个神经元的记忆。注意你如何记得的东西：你通过简化它们来扭曲它们，将它们舍入到最近的最简单的版本，并通过添加应该在那里的详细信息。避免以多种等价方式轻松地重写的短语，因为人们通常会在从内存引用时重新签字，搞砸了文字搜索。记住记忆的变得以及文本批评的基本原则：人们替代易于记忆的版本，为硬盘，长的9个或不寻常的原件。

渐变上升：更长，较少的诙谐版本通常更接近原始和右侧路径上的标志。更糟糕的是，更好。嗅在更糟糕的版本方向上。（作者都经常无法写出他们应该写的东西 - 因为Yogi Berra评论道，“我真的没有说我所说的一切。”）

搜索书籍：切换到GB，希望有人释放或引用它，并包括真正的引文;如果您无法看到完整的段落或参考部分，请在LIBGEN中查找书籍。

“一旦离开地球的黄金就不再归咎于它;从中有理由恢复到地面的无理致力：让纪念碑和丰富的法布里克斯，而不是财富装饰男士灰烬。生活的商业不得转移到死者：拿走没有人抱怨的人不公正，没有人在没有人是拥有者的地方。“

使用SCI-HUB / LIBGEN用于书籍/论文。通常可以使用Libgen（LG）/ SCI-HUB（SH）绕过PayWall：可以直接搜索论文（理想情况下，没有引用的标题+作者通常会有效），或者更容易的方法可以是预先添加10 sci-hub.st（或您喜欢的任何镜像）到一个付费墙。偶尔SCI-HUB将没有纸质或将持续错误地忘记某些或代理错误，但直接搜索LIBGEN将工作。最后，Z-Library Miror上有一个LIBGEN / SCI-HUB全文搜索引擎，这是Google书籍（尽管穷人）的有用替代品。

通过搜索“$密码”等来查看Google中的帐户/密码，可以绕过一些付费墙;图书馆＆amp;学校通常会在页面上列出资格，以便他们的顾客的便利（进入＆amp的好方法;纽约人等）。

使用大学互联网。如果那些不起作用并且您没有大学代理或校友访问，许多大学图书馆都有基于IP的访问规则，并且还可以使用图书馆内的公共登录的WiFi或可互联网的计算机，如果您可以使用愿意花时间亲自参观大学，使用他们的数据库（可能是在付款前保留所需物品清单）。

如果这不起作用，有一个更不透明的填充服务生态系统：Booksc / Bookfi / Bookzz，像Bibliotik这样的私人洪流跟踪器，频道与＃Bookz / #eBooks，旧P2P网络等emule，私人直流++枢纽......

PubMed：大多数带ID的论文可以通过中国扫描服务Eureka Mag来购买;扫描是30美元＆amp;电子文件是20美元。

请注意，许多其他人日记帐网站不适用于SH代理，尽管它们的SCIESCEDIRECT.com版本和/或纸张已在LG中。如果您看到PayWall上的SCIENCEDIRECT.com的链接，如果SH失败，则会在日记网站本身失败。

psyc：最糟糕的网站之一; SH / LG从不使用该方法，很少使用纸张标题/ s，并与我的大学图书馆代理一起工作，组合搜索通常不起作用（经常无法提取甚至取出书目参赛作品），并且只有或手动标题搜索主机数据库有一个完整的文件。（主机本身是一个脆弱的搜索引擎，难以在没有a的情况下可靠地查询。）尝试除了Psyc之外的其他地方的纸张！

人类肉体搜索引擎。最后的度假村：如果没有这项工作，那么您可以在线有几个地方您可以申请副本（但是，如果您已经耗竭了所有之前的途径，它们通常会失败）：

最后，您可以随时尝试联系作者。这偶尔只适用于我拥有最艰难的时间的论文，因为他们往往是当作者死亡或无法访问的旧作者 - 任何作者自1990年以来出版论文通常会在某个地方数字化 - 但它很容易尝试。

查找全文副本后，您应该找到一个可靠的长期链接/放置来存储它并使其更具可固定（请记住 - 如果它不在Google / Google Scholar中，则不存在！）：

：总是在假设下运作，明天可以消失。（由于我的叔叔在图书馆发现了终身会员后不久的时间！）没有保证在他们的法律攻击或幕后戏剧之下，无论是长期以来，都没有保证他们是正确镜像或将在其他地方恢复。下载您需要的任何需要并保留自己的副本，理想情况下，公开主持它。

：永远不要依赖papers.nber.org/tmp/或psycnet.apa.org，因为他们是暂时的。（也是不可取的，因为使其越来越难下载，但它至少可靠。）

：永远不会链接scribd-它们是一个脚本的网站，它阻碍了下载，并且在Scribd上的任何东西通常首先出现在其他地方。（实际上，如果您遇到只有在Scribd上存在的模糊的有用的东西，如果您在案件中别的地方复制它，您将为人类进行服务。）

：避免链接到研究（由新所有权损害，并通过作者常常删除，而不是作者）或Academia.edu（S是一次性和休息）

：要小心链接到Nature.com或单元格（如果一篇论文没有明确标记为开放式访问，即使它是可用的，它也可能在几个月内消失！）;同样，请注意wiley.com，tandfonline.com，jstor.org，springer.com，springerlink.com，＆amp; Mendeley.com，谁拉类似的神话人。

〜/：仔细链接到大学网站上的学术个人目录（Unix公约通常明显.Edu /〜用户/或目录暗示短暂托管，如.edu / cs / pross112 /读物/ foo.pdf）;他们有短暂的半衰期。

编辑：如果扫描，它可能值得编辑裁剪边缘，阈值才能二向化（哪个，对于坏灰度或颜色扫描，可以在增加可读性时大大减少文件大小）。

将元数据添加到论文/书籍是一个好主意，因为它使文件以g / gs（如果不是在线，它确实存在？）并帮助您在将来使用像Zotero这样使用的书目软件。许多学术出版商＆amp; LG对元数据来说是可怕的，并且不会包括甚至包括标题/作者/ /年。

S可以通过使用exiftool轻松注释元数据：：exiftool -all打印所有元数据，并且可以使用类似的字段单独设置元数据。

对于隐藏内部卷或其他文件的论文，您应该提取相关页面范围以创建单个相关文件。（对于提取页面范围，我使用PDFTK，例如：PDFTK 2010-Davidson-Wellplayed10-VideoGesValuemeaning.pdf cat 180-196输出2009-fortugno.pdf。许多发布者将垃圾邮件页面插入第一页。您可以删除垃圾邮件使用PDFTK INPEN.PDF CAT 2-END输出输出.PDF，但请注意，TK可能会丢弃所有元数据，因此在添加任何元数据之前会这样做。）

我试图设定至少标题/作者/年/主题，并提出任何额外的主题＆amp;书目信息进入“关键字”字段。设置元数据的示例：

exiftool -author =＆＃34;弗兰克p.Ramsey＆＃34; -date = 1930 -Title =＆＃34;关于正式逻辑＆＃34的问题; -doi =＆＃34; 10.1112 / plms / s2-30.1.264＆＃34; \ -subject =＆＃34;数学＆＃34; -Kamsey理论，Ramsey理论，Ramsey＆＃39; S定理，组合，数学逻辑，可划解码性，\一阶逻辑，伯尼斯 - Schönfinkel-Ramsey类一阶逻辑，_伦敦数学\ society_，卷S2-30，第1,1930-01-01号，PG264-286＆＃34; 1930-Ramsey.PDF.PDF.

公共托管：如果可能的话，举办公共副本;特别是如果很难找到，即使它没用，也应该托管。你保存的生活可能是你自己的。

WP / Social Media的链接：对于奖励积分，将其链接在维基百科或Reddit或Twitter上的适当位置;这使人们意识到可用的副本，并且还提高了搜索引擎的可见性。

链接特定页面：如前所述，您可以通过添加＃page = n来链接特定页面。链接相关页面对读者有帮助。

除了（推荐）使用热键和Booleans进行搜索外，还有一些有用的研究人员工具，哪个有用的工具，而最初昂贵，可以长期还清：

：自动存档从任意网站的网络浏览和/或链接到MoringalL Linkroot;特别有用的检测＆amp;从死联系恢复

像PubMed＆amp这样的订阅; GS搜索警报：为特定搜索查询或特定纸张的新引用设置警报。（Google警报并不像似乎一样有用。）

将搜索查询的直接转换为警报：“创建警报”在搜索栏下方。（鉴于PubMed索引的数量，我建议仔细定制您的搜索尽可能窄，或者您的警报可能会压倒您。）

要创建通用搜索查询警报，只需在侧栏上使用“创建警报”以获取任何搜索。要遵循关键文件的引文，您必须：1。在GS中提出纸张; 2.单击“由X引用”; 3.然后在侧栏上使用“创建警报”。

：Google自定义搜索引擎是一个专门的搜索查询，限于白名单/域名（例如我的维基百科为中心的动漫/漫画）。

A可以被认为是在类固醇上保存的搜索查询。如果您发现自己定期包含多个搜索中的相同域的分数，或者使用许多否定否定域或使用许多否定滤除常见的误报，可能是设置默认情况下的全部所有这一切。

剪报：使用Evernote / Microsoft OneNote等注意事项：定期制作和保持摘录创建一个个性化的搜索引擎，实际上是个性化的搜索引擎。

这对于塑造您阅读的旧事物来说，这对搜索术语无可比境的旧东西可能是至关重要的，或者您不记得确切的报价或引用;在千分之几的剪报中搜索一个“自闭症”，以及在整个互联网中搜索的另一件事是搜索关键字的一件事！（一个也可以重新组织或编辑要在关键字中添加的笔记，其中一个正在考虑，以帮助纠正。）我大量使用Evernote剪裁，它是塑造参考文献的关键。

爬网网站：有时副本的整个网站副本可能是有用的，无论是更灵活的搜索，要么确保您在将来可能需要任何东西。（例如:)。

了解关于：WGET，C，机架的有用工具; Firefox插件：NoScript，Ublock Origin，Live标题，旁路PayWalls，Cookie导出。

缺少下载网站，通过使用LinkChecker将其爬网爬网来卸载它可能也很有用，编译所有外部和amp的列表;内部链接，并将其存储用于由另一个档案程序进行处理（参见示例）。在某些罕见的情况下，像NMAP这样的安全工具可以更详细地检查一个神秘的服务器：它运行的Web服务器和服务是什么，它可能还有什么（有时旧的匿名服务器会出现旧的东西），有一个网站在IPS或服务器等之间移动。

通过正确使用像Archiver-Bot等前的归档工具，在自己的页面中修复LinkRot会更容易，但留下其他引用。搜索丢失的网页类似于搜索文件：

它是一个很好的主意，包括在自己的页面中的页面标题，以及帮助未来搜索，因为可能是无意义的隐形，并且先发制人的归档可能会失败。支持链接标记中的alt和标题参数，并且在显示标题的情况下，在不希望的情况下（因为链接作为正常超缩短写入的一部分内联使用），标题可以在如下knlown文档中清洁地包含：[内联文字说明]（URL＆＃34;标题＆＃34;）。

清洁s：检查奇怪或尾随垃圾吗？RSS = 1或？UTM_Source = FeedBurner＆amp; UTM_MENDIUM = Feed＆amp; UTM_CAMPAIGN = Feed％3a +博客％2fgjzg +％28google + ai + blog％29？或者是一个变体域，如mobile.foo.com/ m.foo.com/ foo.com/amp/？这些都不那么可能是可以找到的或归档而不是规范版本。

域站点搜索：将g搜索到带站点的原始域：，或与相关域名

切换引擎：尝试不同的搜索引擎：语料库可以变化，并且在某些情况下，G试图在您需要文字时为自己的良好而太智能

......

https://web.archive.org/web/20210307110938/https://www.gwern.net/Search

军事政变后的互联网停电已关闭缅甸的在线经济，互联网普及率飙升至约43％

2021-4-17 20:32

纽约州刚刚通过了一项要求ISP的法律提供15美元的宽带

2021-4-17 7:59

RetrobridgeBBS：互联网桥BBS要将文件传输到您的复古计算机

2021-4-16 7:22

中国表示，它在阿里巴巴筹集了2.8亿美元的垄断商业惯例; 阿里巴巴表示，它将接受“真诚”的罚款

2021-4-10 11:1

tags users