我正在寻找可以将MP3 / WAV文件转换为文本的软件(适用于Windows或Linux)。

可以通过语音识别自动生成文本的东西,例如YouTube上的自动字幕,但是可以将这些字幕输出到文本文件中。

评论

您正在寻找转录软件。这个领域仍在发展中,并没有您想要的先进。

Iirc,可以从YouTube上自己的视频中下载自动生成的字幕。也有第三方工具可以从几乎任何视频中做到这一点。 (我成功地从这里下载了来自youtube的字幕的前20个结果之一)。

Windows语音识别软件的可能副本,该软件将音频文件作为输入并输出文本文件

#1 楼

Watson的语音转文本服务

这是IBM Watson语音转文本服务的在线演示。您也可以使用其页面上提供的任何SDK。它可能需要WAV文件,但不能包含MP3,因此您将需要首先转换MP3。

在页面上,选择要使用的语言,以及您是否想尝试识别多种语言。扬声器。上传音频文件并等待结果。

绝不是完美的。由于其性质,它没有机会训练它很好地识别特定的语音,这是转录软件所具有的优势(但是,转录软件通常需要麦克风输入,当然,您可以尝试回送音频)。另一方面,Watson不断改进并具有识别多个说话者的能力(在某些情况下),这是转录软件无法做到的(并且不打算做到)。

#2 楼

在Windows上,有语音识别API,该语言非常易于使用,就像在几个函数调用中一样,您都已设置好。

https://msdn.microsoft.com/zh-cn /library/jj127860.aspx

否则,尽管速度较慢,但​​可以使用Google Cloud Speech API或IBM Watson,以及Amazon的Alexa Voice Server来进行互联网连接。

您始终可以将音频输出重定向到音频捕获设备(可以在带有音频环回设备的Windows上执行此操作,并且大多数操作系统都支持这样做),在这种情况下,计算机的所有音频输出(例如YouTube)音频,可以通过上述API捕获。

不幸的是,我对此并不特别了解,但是对于Windows,它可能包含您所需要的内容。

https ://www.microsoft.com/zh-cn/download/details.aspx?id = 27224

否则,有些编程技巧应该很容易做到—如果让我感到惊讶还没有人。

大量的s peech识别软件,其中一些可能包含将文本输出保存到我​​在这里找到的文件的功能:

https://en.wikipedia.org/wiki/Speech_recognition_software_for_Linux



https://en.wikipedia.org/wiki/List_of_speech_recognition_software

#3 楼

这是一个有趣的问题。完全披露:我没有这方面的专业知识。

如相关问题中所述:Windows工具将语音设置为密码,您所寻找的内容可能更恰当地称为语音识别,而不是语音识别。我对“语音识别”进行了标签搜索,获得了24次匹配(语音识别搜索)。您可能会特别感兴趣的是一种用于Windows的语音识别软件,它将音频文件作为输入并输出文本文件。它的答案引用了两个程序,Dragon Naturally Speaking,这是商业性的,可能不感兴趣,而CMUSpinx是开源的。答案表明您可能需要进行一些编程,并且您的mp3必须转换为wav文件。

让我们知道是否可行!

#4 楼

您可能需要尝试“ Dragon NaturallySpeaking”,这是一款昂贵的软件,被广告宣传为您可以做的。我有机会测试一个较旧的版本,我想说语音识别在对最终用户真正有用之前还有很长的路要走。

评论


这已经在另一个答案中提到

–user416
17-10-16在12:59