GWERN:互联网搜索提示

2021-04-18 18:12:33

随着时间的推移,我开发了一定的Google-Fu和在线寻找参考文献,论文和书籍的专业知识。其中一些技巧尚不知之甚少,就像检查互联网档案(IA)的书籍。我试图写下我的搜索工作流程,并提供关于查找和托管文件的一般建议,并具有示范案例研究。

Google-fu搜索技能是自从小学以来我自己骄傲的东西,当图书馆员挑战课堂上的班主任中的东西;我不经常,我赢了。我仍然可以记住它在高中时的确切时刻,我的余生中的大部分都会花在处理搜索,工资空间和破碎的链接。互联网是最伟大的历书,和好奇,一个永无止境的聚宝盆,让我感到非常难过,看到许多失败后粗略搜索或不看都找东西。对于大多数人来说,如果不是谷歌/谷歌学者的第一次击中,则它不存在。下面,我揭示了我最好的互联网搜索技巧,并尝试提供如何进行在线搜索的粗略流程图,解释了搜索福的微妙技巧和直觉。

做或不做;没有尝试。当你有一个问题时,你必须做的第一件事是养成搜索的习惯:“谷歌是你的朋友”。您唯一保证失败的搜索是您从未运行的搜索。 ()

了解您的基本布尔运营商&密钥G搜索运算符:精确匹配的双引号,否定/排除的连字符,以及站点:用于搜索该网站的特定网站或特定目录(例如foo站点:gwern.net/docs/genetics/)。您可能还想使用高级搜索以了解可能的内容。 (有更多的G搜索运算符(Russell描述),但它们不一定值得学习,因为它们实现了深奥功能,并且大多数似乎是越野车1.)

使用提示和复制粘贴选择缓冲区启用某种热键搜索,然后将Google(G)/ Google Scholar(GS)/维基百科(WP)搜索到反射中。 2你应该能够本能地搜索变得好奇的瞬间,有几个击键。 (如果在没有其他人注意到你的暂停的情况下,你不能使用它,那就不够快。)

示例工具:Autohotkey(Windows),QuickSilver(Mac),XClip + Surfraw / Stumpwm的搜索引擎/ XMONAD的Actions.Search/ Hake.Shell(Linux)。 DuckDuckGo提供“刘海”,在发动机内部专项搜索(最相当于一种谷歌网站:搜索),可以类似地使用或与提示/宏/热键组合使用。

我致力于使用我写的XMONAD Hotkeys,它给了我窗口管理器快捷方式:在使用任何程序时,我可以突出显示标题字符串,然后按Super-Shift-y打开当前选择作为GS搜索即时的新的Firefox选项卡;如果我想编辑标题(也许添加作者姓氏,年或关键字),我可以选择提示,super-y,用c-y粘贴,并在\ n启动搜索之前编辑它。可以想象,这对搜索许多文件或搜索来说是非常有帮助的。 (这些快捷方式有浏览器等同物,但我不喜欢它们,因为如果您在浏览器中只能工作,通常需要更多的击键或鼠标使用,并且通常不支持热键或搜索复制粘贴选择缓冲区:Firefox , 铬合金)

为了在结果和条目集之间导航,您应该有良好的标签Web浏览器命令。您应该能够转到地址栏,在选项卡中向左/向右移动,关闭选项卡,打开新的空白选项卡,转到特定选项卡等(分别在Firefox中:CL,C-PGUP,C-PGDWN, CW,CT,M- [1-9]。)

推出您的搜索,大概是Google Scholar,您必须导航GS结果。对于GS,它通常像右上角的[PDF]或[HTML]链接一样简单,该链接表示(GS认为是什么)全文链接,例如:

GS:如果没有右上角的全文,请寻找软墙。在GS中,请记住,“[]”链接并不总是表示全文链接!用手检查顶部命中:通常有“软墙”阻止了Web蜘蛛,但仍然可以让您下载FullText(可能在大量的麻烦之后,喜欢)。

请注意,GS支持其他有用的功能,如搜索查询的警报,用于引用特定文件的任何内容,以及反向引用搜索(以便在纸上跟踪,以查找其批准或批评IT的批评)。

对于报价/描述搜索:如果您没有标题并倒回搜索引号,请尝试对标题进行不同的调查:

短引号是唯一的:不要搜索太长的报价,句子或两者通常足以近乎独特,并且可以有助于调出其他可能有更好的块的其他消息来源。

:因为即使是短语也可以是唯一的,所以尝试来自一个大报价的多个子报价,尤其是从开头和结束,这可能与具有先前或后续段落的引号重叠。

:搜索奇怪的短语或单词,尤其是数字。 3或4个关键字通常足够。

:寻找原始文本中的段落,它们可能基于相同的来源,特别是如果他们只是在没有任何提示的情况下被删除,并且听起来不像作者一样;作者通常不会引用它们在源上绘制的每次绘制,通常只有第一次,在编辑“首次”时,源的外观很容易被移动到文本中的稍后。所有这些额外的用途都可以添加到搜索中。

强大的行情:您正在战斗中文耳语的游戏,因此寻找独特的声音句子和术语,可以在重复传输中乱画。

一个神经元在多年来另一个神经元告诉另一个神经元的记忆。注意你如何记得的东西:你通过简化它们来扭曲它们,将它们舍入到最近的最简单的版本,并通过添加应该在那里的详细信息。避免以多种等价方式轻松地重写的短语,因为人们通常会在从内存引用时重新签字,搞砸了文字搜索。记住记忆的变得以及文本批评的基本原则:人们替代易于记忆的版本,为硬盘,长的9个或不寻常的原件。

渐变上升:更长,较少的诙谐版本通常更接近原始和右侧路径上的标志。更糟糕的是,更好。嗅在更糟糕的版本方向上。 (作者都经常无法写出他们应该写的东西 - 因为Yogi Berra评论道,“我真的没有说我所说的一切。”)

搜索书籍:切换到GB,希望有人释放或引用它,并包括真正的引文;如果您无法看到完整的段落或参考部分,请在LIBGEN中查找书籍。

“一旦离开地球的黄金就不再归咎于它;从中有理由恢复到地面的无理致力:让纪念碑和丰富的法布里克斯,而不是财富装饰男士灰烬。生活的商业不得转移到死者:拿走没有人抱怨的人不公正,没有人在没有人是拥有者的地方。“

使用SCI-HUB / LIBGEN用于书籍/论文。通常可以使用Libgen(LG)/ SCI-HUB(SH)绕过PayWall:可以直接搜索论文(理想情况下,没有引用的标题+作者通常会有效),或者更容易的方法可以是预先添加10 sci-hub.st(或您喜欢的任何镜像)到一个付费墙。偶尔SCI-HUB将没有纸质或将持续错误地忘记某些或代理错误,但直接搜索LIBGEN将工作。最后,Z-Library Miror上有一个LIBGEN / SCI-HUB全文搜索引擎,这是Google书籍(尽管穷人)的有用替代品。

通过搜索“$密码”等来查看Google中的帐户/密码,可以绕过一些付费墙;图书馆&学校通常会在页面上列出资格,以便他们的顾客的便利(进入&amp的好方法;纽约人等)。

使用大学互联网。如果那些不起作用并且您没有大学代理或校友访问,许多大学图书馆都有基于IP的访问规则,并且还可以使用图书馆内的公共登录的WiFi或可互联网的计算机,如果您可以使用愿意花时间亲自参观大学,使用他们的数据库(可能是在付款前保留所需物品清单)。

如果这不起作用,有一个更不透明的填充服务生态系统:Booksc / Bookfi / Bookzz,像Bibliotik这样的私人洪流跟踪器,频道与#Bookz / #eBooks,旧P2P网络等emule,私人直流++枢纽......

PubMed:大多数带ID的论文可以通过中国扫描服务Eureka Mag来购买;扫描是30美元&电子文件是20美元。

请注意,许多其他人日记帐网站不适用于SH代理,尽管它们的SCIESCEDIRECT.com版本和/或纸张已在LG中。如果您看到PayWall上的SCIENCEDIRECT.com的链接,如果SH失败,则会在日记网站本身失败。

psyc:最糟糕的网站之一; SH / LG从不使用该方法,很少使用纸张标题/ s,并与我的大学图书馆代理一起工作,组合搜索通常不起作用(经常无法提取甚至取出书目参赛作品),并且只有或手动标题搜索主机数据库有一个完整的文件。 (主机本身是一个脆弱的搜索引擎,难以在没有a的情况下可靠地查询。)尝试除了Psyc之外的其他地方的纸张!

人类肉体搜索引擎。最后的度假村:如果没有这项工作,那么您可以在线有几个地方您可以申请副本(但是,如果您已经耗竭了所有之前的途径,它们通常会失败):

最后,您可以随时尝试联系作者。这偶尔只适用于我拥有最艰难的时间的论文,因为他们往往是当作者死亡或无法访问的旧作者 - 任何作者自1990年以来出版论文通常会在某个地方数字化 - 但它很容易尝试。

查找全文副本后,您应该找到一个可靠的长期链接/放置来存储它并使其更具可固定(请记住 - 如果它不在Google / Google Scholar中,则不存在!):

:总是在假设下运作,明天可以消失。 (由于我的叔叔在图书馆发现了终身会员后不久的时间!)没有保证在他们的法律攻击或幕后戏剧之下,无论是长期以来,都没有保证他们是正确镜像或将在其他地方恢复。下载您需要的任何需要并保留自己的副本,理想情况下,公开主持它。

:永远不要依赖papers.nber.org/tmp/或psycnet.apa.org,因为他们是暂时的。 (也是不可取的,因为使其越来越难下载,但它至少可靠。)

:永远不会链接scribd-它们是一个脚本的网站,它阻碍了下载,并且在Scribd上的任何东西通常首先出现在其他地方。 (实际上,如果您遇到只有在Scribd上存在的模糊的有用的东西,如果您在案件中别的地方复制它,您将为人类进行服务。)

:避免链接到研究(由新所有权损害,并通过作者常常删除,而不是作者)或Academia.edu(S是一次性和休息)

:要小心链接到Nature.com或单元格(如果一篇论文没有明确标记为开放式访问,即使它是可用的,它也可能在几个月内消失!);同样,请注意wiley.com,tandfonline.com,jstor.org,springer.com,springerlink.com,& Mendeley.com,谁拉类似的神话人。

〜/:仔细链接到大学网站上的学术个人目录(Unix公约通常明显.Edu /〜用户/或目录暗示短暂托管,如.edu / cs / pross112 /读物/ foo.pdf);他们有短暂的半衰期。

编辑:如果扫描,它可能值得编辑裁剪边缘,阈值才能二向化(哪个,对于坏灰度或颜色扫描,可以在增加可读性时大大减少文件大小)。

将元数据添加到论文/书籍是一个好主意,因为它使文件以g / gs(如果不是在线,它确实存在?)并帮助您在将来使用像Zotero这样使用的书目软件。许多学术出版商& LG对元数据来说是可怕的,并且不会包括甚至包括标题/作者/ /年。

S可以通过使用exiftool轻松注释元数据::exiftool -all打印所有元数据,并且可以使用类似的字段单独设置元数据。

对于隐藏内部卷或其他文件的论文,您应该提取相关页面范围以创建单个相关文件。 (对于提取页面范围,我使用PDFTK,例如:PDFTK 2010-Davidson-Wellplayed10-VideoGesValuemeaning.pdf cat 180-196输出2009-fortugno.pdf。许多发布者将垃圾邮件页面插入第一页。您可以删除垃圾邮件使用PDFTK INPEN.PDF CAT 2-END输出输出.PDF,但请注意,TK可能会丢弃所有元数据,因此在添加任何元数据之前会这样做。)

我试图设定至少标题/作者/年/主题,并提出任何额外的主题&书目信息进入“关键字”字段。设置元数据的示例:

exiftool -author ="弗兰克p.Ramsey" -date = 1930 -Title ="关于正式逻辑&#34的问题; -doi =" 10.1112 / plms / s2-30.1.264" \ -subject ="数学" -Kamsey理论,Ramsey理论,Ramsey' S定理,组合,数学逻辑,可划解码性,\一阶逻辑,伯尼斯 - Schönfinkel-Ramsey类一阶逻辑,_伦敦数学\ society_,卷S2-30,第1,1930-01-01号,PG264-286" 1930-Ramsey.PDF.PDF.

公共托管:如果可能的话,举办公共副本;特别是如果很难找到,即使它没用,也应该托管。你保存的生活可能是你自己的。

WP / Social Media的链接:对于奖励积分,将其链接在维基百科或Reddit或Twitter上的适当位置;这使人们意识到可用的副本,并且还提高了搜索引擎的可见性。

链接特定页面:如前所述,您可以通过添加#page = n来链接特定页面。链接相关页面对读者有帮助。

除了(推荐)使用热键和Booleans进行搜索外,还有一些有用的研究人员工具,哪个有用的工具,而最初昂贵,可以长期还清:

:自动存档从任意网站的网络浏览和/或链接到MoringalL Linkroot;特别有用的检测&从死联系恢复

像PubMed&amp这样的订阅; GS搜索警报:为特定搜索查询或特定纸张的新引用设置警报。 (Google警报并不像似乎一样有用。)

将搜索查询的直接转换为警报:“创建警报”在搜索栏下方。 (鉴于PubMed索引的数量,我建议仔细定制您的搜索尽可能窄,或者您的警报可能会压倒您。)

要创建通用搜索查询警报,只需在侧栏上使用“创建警报”以获取任何搜索。要遵循关键文件的引文,您必须:1。在GS中提出纸张; 2.单击“由X引用”; 3.然后在侧栏上使用“创建警报”。

:Google自定义搜索引擎是一个专门的搜索查询,限于白名单/域名(例如我的维基百科为中心的动漫/漫画)。

A可以被认为是在类固醇上保存的搜索查询。如果您发现自己定期包含多个搜索中的相同域的分数,或者使用许多否定否定域或使用许多否定滤除常见的误报,可能是设置默认情况下的全部所有这一切。

剪报:使用Evernote / Microsoft OneNote等注意事项:定期制作和保持摘录创建一个个性化的搜索引擎,实际上是个性化的搜索引擎。

这对于塑造您阅读的旧事物来说,这对搜索术语无可比境的旧东西可能是至关重要的,或者您不记得确切的报价或引用;在千分之几的剪报中搜索一个“自闭症”,以及在整个互联网中搜索的另一件事是搜索关键字的一件事! (一个也可以重新组织或编辑要在关键字中添加的笔记,其中一个正在考虑,以帮助纠正。)我大量使用Evernote剪裁,它是塑造参考文献的关键。

爬网网站:有时副本的整个网站副本可能是有用的,无论是更灵活的搜索,要么确保您在将来可能需要任何东西。 (例如:)。

了解关于:WGET,C,机架的有用工具; Firefox插件:NoScript,Ublock Origin,Live标题,旁路PayWalls,Cookie导出。

缺少下载网站,通过使用LinkChecker将其爬网爬网来卸载它可能也很有用,编译所有外部和amp的列表;内部链接,并将其存储用于由另一个档案程序进行处理(参见示例)。在某些罕见的情况下,像NMAP这样的安全工具可以更详细地检查一个神秘的服务器:它运行的Web服务器和服务是什么,它可能还有什么(有时旧的匿名服务器会出现旧的东西),有一个网站在IPS或服务器等之间移动。

通过正确使用像Archiver-Bot等前的归档工具,在自己的页面中修复LinkRot会更容易,但留下其他引用。搜索丢失的网页类似于搜索文件:

它是一个很好的主意,包括在自己的页面中的页面标题,以及帮助未来搜索,因为可能是无意义的隐形,并且先发制人的归档可能会失败。支持链接标记中的alt和标题参数,并且在显示标题的情况下,在不希望的情况下(因为链接作为正常超缩短写入的一部分内联使用),标题可以在如下knlown文档中清洁地包含:[内联文字说明](URL"标题")。

清洁s:检查奇怪或尾随垃圾吗?RSS = 1或?UTM_Source = FeedBurner& UTM_MENDIUM = Feed& UTM_CAMPAIGN = Feed%3a +博客%2fgjzg +%28google + ai + blog%29?或者是一个变体域,如mobile.foo.com/ m.foo.com/ foo.com/amp/?这些都不那么可能是可以找到的或归档而不是规范版本。

域站点搜索:将g搜索到带站点的原始域:,或与相关域名

切换引擎:尝试不同的搜索引擎:语料库可以变化,并且在某些情况下,G试图在您需要文字时为自己的良好而太智能

......