EasyOCR：支持40种语言的即用型OCR

2020-07-08 20:40:09

南非荷兰语(Af)、阿塞拜疆语(Az)、波斯尼亚语(Bs)、简体中文(Ch_Sim)、繁体中文(Ch_Tra)、捷克语(Cs)、威尔士语(Cy)、丹麦语(Da)、德语(De)、英语(En)、西班牙语(Es)、爱沙尼亚语(Et)、法语(Fr)、爱尔兰语(Ga)、克罗地亚语(Hr)、匈牙利语(Hu)、印度尼西亚语(Id)、冰岛语(Is)、意大利语(It)、日语。毛利语(Mi)、马来语(Ms)、马耳他语(Mt)、荷兰语(Nl)、挪威语(No)、波兰语(Pl)、葡萄牙语(Pt)、罗马尼亚语(Ro)、斯洛伐克语(Sk)(需要重访)、斯洛文尼亚语(Sl)、阿尔巴尼亚语(Sq)、瑞典语(Sv)、斯瓦希里语(Sw)、泰语(Th)、塔加洛克语(Tl)、土耳其语(Tr)、乌兹别克语(Uz)、越南语(Vi)。

字符列表位于easyocr/character文件夹中。如果您是以任何语言为母语的人，并且认为我们应该添加或删除任何字符，请创建问题和/或拉回请求(如此请求)。

注意：对于windows系统，请先按照https://pytorch.org的官方说明安装TORCH和TORCHVISION。

备注：除了filepath'；test.jpg'；，您还可以按字节传递OpenCV图像对象或图像文件。

所选语言的型号重量将自动下载，或者您可以从以下链接手动下载，并将其放入'；~/.EasyOCR/model'；文件夹中。

输出将采用列表格式，每个项目分别表示边界框、文本和置信度。

[1344439]，[2168439]，[2168580]，[1344580]，'；ใจเด็ด&39；，0.4542357623577118)，([[1333562]，[2169,562]，[2169,709]，[1333709]]，'；项目'；0.9557611346244812)]。

如果您没有GPU或GPU内存较低，您可以通过添加GPU=FALSE在CPU模式下运行它。

readtext函数有可选参数，解码器可以是'；贪婪'；(默认值)、'；beamsearch'；或'；wordbeamsearch'；。对于'；beamsearch'；和'；wordbeamsearch'；，您还可以设置波束宽度(默认值=5)。数字越大，速度越慢，但可以更准确。对于多处理，您可以设置WORKS和BATCH_SIZE。当前版本将图像转换为灰度以用于识别模型，因此对比度可能是个问题。您可以尝试使用对比度、ADJUST_CORSORATS和FILTER_THS。

识别模型为CRNN(纸张)。它由特征提取(我们目前使用的是RESNET)、序列标注(LSTM)和解码(CTC)三个主要部分组成。用于识别部分的训练流水线是来自该存储库的修改版本。

请创建问题以报告错误或建议新功能。欢迎拉取请求。或者，如果你觉得这个图书馆很有用，就告诉你的朋友吧。

https://github.com/JaidedAI/EasyOCR

tags users