高质量的预先培训的语音到文本模型现已在Torch Hub上提供

2020-09-23 22:51:59

#这假设您已经安装了正确版本的PyTorch dpip install-q torchaudio omegaconf soundfile。

导入TORCH导入ZIPFILE从GLOB导入TORCHUDIO导入GLOB#参见https://github.com/snakers4/silero-models了解实用程序和更多示例DEVICE=TORCH。设备(#39;CPU';)#图形处理器也可以工作,但我们的型号足够快的CPU型号,解码器,utils=手电筒。集线器。LOAD(GitHub=';snakers4/silero-model';,model=';silero_stt';,device=device,force_reload=True)(READ_BATCH,SPLIT_INTING_BATCHS,READ_AUDIO,PREPARE_MODEL_INPUT)=utils#有关详细信息,请参阅函数签名#下载单个文件,任何与TorchAudio(声音文件后端)Torch兼容的格式。集线器。Download_url_to_file(';https://opus-codec.org/static/examples/samples/speech_orig.wav';,dst=';Speech_Orig.wav';,Progress=True)TEST_FILES=GLOB(';Speech_Orig.wav';)#或对整批文件#torch.hub.download_url_to_file(';Http://www.openslr.org/resources/83/midlands_english_female.zip';,#dst=';Midland_English_female.zip';,#Progress=True)#With zipfile.ZipFile(';midlands_english_female.zip';,';r';)As Zip_REF:#zip_ref.extractall(';midlands_english_female';)#TEST_FILES=GLOB(';Midland_english_female/*.wav';)Batches=Split_into_Batches(test_files,Batch_size=10)INPUT=PREPARE_MODEL_INPUT(READ_BATCH(Batches[0]),DEVICE=DEVICE)OUTPUT=MODEL(INPUT)例如在OUTPUT:PRINT(解码器(例如。Cpu())。

Silero语音到文本模型以紧凑的外形为几种常用语言提供企业级STT。与传统的ASR模型不同,我们的模型对各种方言、编解码器、域、噪声、较低的采样率(为简单起见,音频应重新采样到16 kHz)都是健壮的。模型消耗样本形式的归一化音频(即,除了归一化到-1\f25…-1\f6之外,没有任何预处理。1)并输出具有令牌概率的帧。为简单起见,我们提供了一个解码器实用程序(我们可以将其包含到我们的模型本身中,但是在某些导出场景中,脚本化模块在存储模型工件(即标签)时存在问题)。

我们希望,我们使用Open-STT和Silero模型的努力将使演讲中的ImageNet时刻更近。

要查看始终最新的语言列表,请访问我们的repo并查看所有可用检查点的YML文件。

有关其他示例和其他模型格式,请访问此链接。有关质量和性能基准,请参阅维基。这些资源将会不时更新。