我们很自豪地宣布,我们已经从头开始构建并发布了适用于以下语言的高质量(即与高级Google模型不相上下)语音到文本模型:
您可以在我们的存储库中找到我们的所有模型以及示例、质量和性能基准。此外,我们还投入了一些时间使我们的模型尽可能易于访问-您可以尝试我们的示例以及PyTorch、ONNX、TensorFlow检查点。您也可以通过TorchHub加载我们的模型。
以下是现有ASR解决方案和方法在我们发布之前遇到的一些典型问题:
预先培训的模型和食谱不能很好地推广,即使是原样也很难使用,依赖于过时的技术;
首先,我们试图通过发布世界上最大的俄语口语语料库(参见我们在Habr的帖子)来缓解社区的一些问题。现在我们试着从以下几个方面来解决这些问题:
正如您在我们的基准测试中看到的那样,我们的模型被设计成对不同的领域都是健壮的;
我们认为,现代技术的使用应该简单得令人尴尬。在我们的工作中,我们遵循以下设计原则:
模型应该跨域泛化,应该有一个表面上针对特定领域量身定做的通用解决方案,而不是反之亦然;
现在我们能压缩的最小模型大约是50兆字节。我们仍然计划将我们的企业版模型压缩到20兆字节,而不会损失保真度。我们还计划为其他流行语言发布Community Edition模型。