Texthero-Python模块,可在数秒内分析任何文本数据集

2020-07-06 04:51:38

Texthero是一个Python工具包,可以轻松快捷地处理基于文本的数据集。TEXTHERO非常容易学习,并且设计成可以在熊猫之上使用。TEXTHERO具有与熊猫相同的表现力和力量,并且有广泛的文献记载。Texthero是现代的,是为2020年十年的程序员构思的,几乎没有语言知识(如果有的话)。

您可以将Texthero视为帮助您理解和使用基于文本的数据集的工具。给定一个表格数据集,很容易掌握主要概念。相反,在给定文本数据集的情况下,很难快速洞察下划线数据。使用Texthero,预处理文本数据,将其映射为向量,并将获得的向量空间可视化只需几行。

向量空间分析:聚类(K-Means、MeanShift、DBSAN和Hierarchy)、主题建模(LDA和LSI)和解释。

Texthero是免费的、开源的,并且有很好的文档记录(顺便说一句,这也是我们最喜欢的!)。

我们希望您能像我们在德克萨斯罗成长过程中一样,找到与他一起工作的乐趣。

TEXTHERO正在快速成长,它需要您的帮助。我们非常感谢任何反馈和建议。这包括对新功能或任何其他类型改进的建议。如果有什么事,请打开一期,我们将很高兴尽快回复您!

在引擎盖下,☝️利用了多个自然语言处理和机器学习工具包,如gensim、nltk、spacy和SCRICKIT-LEARN。你不需要把它们全部分开安装,pip会处理的。

要获得快速性能,请确保您已安装Spacy版本>;=2.2。另外,确保您有最新版本的python,越高越好。

导入texthero作为英雄导入熊猫作为pd df=pd。Read_csv(";https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv";)df[';pca&39;]=(df[';text&39;])。风笛(英雄。干净)。风笛(英雄。tfidf)。风笛(英雄。PCA))英雄。散点图(DF,';PCA';,color=';主题,标题=";PCA BBC体育新闻";)。

导入texthero作为英雄导入熊猫作为pd df=pd。Read_csv(";https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv";)df[';tfidf[';]]=(df[';TEXT&39;]]。风笛(英雄。干净)。风笛(英雄。tfidf))df[';kmeans_labels';]=(df[';tfidf';]]。风笛(英雄。k均值,n_cluster=5)。astype(Str))df[';pca&39;]=df[';tfidf&39;]。风笛(英雄。PCA)英雄。散点图(DF;#39;PCA';,color=';kmeans_labels';,title=";K-表示BBC体育新闻)。

>;>;>;将texthero作为英雄>;>;>;导入熊猫作为PD>;>;>;text=";this sèntencé(123/)需要[OK!]。清洁!";>;>;s=PD。系列(文本)>;>;>;s 0此Sèntencé(123/)需要[确定!]。要干净利落..。数据类型:对象。

>;>;>;s=英雄。Remove_digits(S)>;>;>;s 0此序列号(/)需要[确定!]。洗干净!数据类型:对象。

删除数字仅替换数字块。字符串";hello123";中的数字不会被删除。如果要删除所有数字,则需要将ONLY_BLOCKS设置为FALSE。

范围:总结关于文本数据的主要事实,并将其可视化。这个模块是固执己见的。它对于任何需要快速解决方案在屏幕上可视化文本数据的人都很方便,例如在文本探索性数据分析(EDA)期间。

有时候我们只是想把事情做好,对吗?德克瑟罗帮个忙。这有助于使事情变得更容易,并让开发人员有更多时间专注于他的自定义需求。我们认为开始清理文本应该只需要一分钟。查找文本中最重要的部分和表示文本的部分都是一样的。

以一种非常务实的方式,texthero只有一个目标:让开发人员有空闲时间。处理文本数据可能会很麻烦,而且在大多数情况下,启动默认管道可能会非常好。例如,总有时间回来改进预处理步骤的。

拉取请求令人惊叹,并且最受欢迎。首先派生此存储库并打开一个问题。

Texthero也在寻找维护者和贡献者。如果感兴趣,只需在jonathanbesomi__AT__gmail.com上留言