MP3 / WAV到文本（语音识别）

我正在寻找可以将MP3 / WAV文件转换为文本的软件（适用于Windows或Linux）。

可以通过语音识别自动生成文本的东西，例如YouTube上的自动字幕，但是可以将这些字幕输出到文本文件中。

您正在寻找转录软件。这个领域仍在发展中，并没有您想要的先进。

Iirc，可以从YouTube上自己的视频中下载自动生成的字幕。也有第三方工具可以从几乎任何视频中做到这一点。（我成功地从这里下载了来自youtube的字幕的前20个结果之一）。

Windows语音识别软件的可能副本，该软件将音频文件作为输入并输出文本文件

#1 楼

Watson的语音转文本服务

这是IBM Watson语音转文本服务的在线演示。您也可以使用其页面上提供的任何SDK。它可能需要WAV文件，但不能包含MP3，因此您将需要首先转换MP3。

在页面上，选择要使用的语言，以及您是否想尝试识别多种语言。扬声器。上传音频文件并等待结果。

绝不是完美的。由于其性质，它没有机会训练它很好地识别特定的语音，这是转录软件所具有的优势（但是，转录软件通常需要麦克风输入，当然，您可以尝试回送音频）。另一方面，Watson不断改进并具有识别多个说话者的能力（在某些情况下），这是转录软件无法做到的（并且不打算做到）。

#2 楼

在Windows上，有语音识别API，该语言非常易于使用，就像在几个函数调用中一样，您都已设置好。

https://msdn.microsoft.com/zh-cn /library/jj127860.aspx

否则，尽管速度较慢，但可以使用Google Cloud Speech API或IBM Watson，以及Amazon的Alexa Voice Server来进行互联网连接。

您始终可以将音频输出重定向到音频捕获设备（可以在带有音频环回设备的Windows上执行此操作，并且大多数操作系统都支持这样做），在这种情况下，计算机的所有音频输出（例如YouTube）音频，可以通过上述API捕获。

不幸的是，我对此并不特别了解，但是对于Windows，它可能包含您所需要的内容。

https ：//www.microsoft.com/zh-cn/download/details.aspx？id = 27224

否则，有些编程技巧应该很容易做到—如果让我感到惊讶还没有人。

大量的s peech识别软件，其中一些可能包含将文本输出保存到我在这里找到的文件的功能：

https://en.wikipedia.org/wiki/Speech_recognition_software_for_Linux

和

https://en.wikipedia.org/wiki/List_of_speech_recognition_software

#3 楼

这是一个有趣的问题。完全披露：我没有这方面的专业知识。

如相关问题中所述：Windows工具将语音设置为密码，您所寻找的内容可能更恰当地称为语音识别，而不是语音识别。我对“语音识别”进行了标签搜索，获得了24次匹配（语音识别搜索）。您可能会特别感兴趣的是一种用于Windows的语音识别软件，它将音频文件作为输入并输出文本文件。它的答案引用了两个程序，Dragon Naturally Speaking，这是商业性的，可能不感兴趣，而CMUSpinx是开源的。答案表明您可能需要进行一些编程，并且您的mp3必须转换为wav文件。

让我们知道是否可行！

#4 楼

您可能需要尝试“ Dragon NaturallySpeaking”，这是一款昂贵的软件，被广告宣传为您可以做的。我有机会测试一个较旧的版本，我想说语音识别在对最终用户真正有用之前还有很长的路要走。

这已经在另一个答案中提到

–user416
17-10-16在12:59

编程黑洞网

MP3 / WAV到文本（语音识别）

评论

#1 楼

#2 楼

#3 楼

#4 楼

评论