语音识别（零）

Add Comment

Posted on 2020年2月1日 by Cmplictd

对照最近的to-do list，最终拿了开源的ASRT release（https://github.com/nl8590687/ASRT_SpeechRecognition/releases）试了下，暂时cpu跑通了。

我一开始想当然地以为没什么问题，然后发现默认的python3.8版本太高没有适配的tensorflow，于是转而用python3.6和anaconda。另外tensorflow-gpu不支持amd gpu，amd有个ROCm，但是只能在ubuntu上跑。如果要跑ubuntu，我多半不会去搞双系统（我不是来复习装双系统的，只想试试语音识别 -_-!），那么虚拟机的话， vmware没法直通显卡，hyper-V可能可行，但是ubuntu下特么要是不行就尴尬了；直接linux子系统也是。于是就不用gpu了，cpu怼上去。

一环套一环理清楚后，下载anaconda，经网友提醒把源换成清华的（pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple），然后装依赖。没有tensorboard 2.1.0的包，手动安装指定版本（ pip install tensorboard==2.1.0）失败，找了个官方whl路径（https://pypi.org/project/tensorboard/#files具体文件）来指定安装。然后对照ASRT文档补上缺少的依赖，没什么大问题。执行时，先到conda的环境中，然后执行python test.py，否则直接跑test.py还是用的本机环境python 3.8执行的。

拿了一段测试语音和截取的视频录音，测试语音还行，拼音问题不大，换成文字基本上全错，但是视频的就不太行了，语速一快就飞了，根本看不懂。改天拿个百度或者讯飞的免费api试试，不知道会不会真香。视频截取的语音，除了语音还有背景音乐，虽然不大但也会影响，而且语速快、中英夹杂比较多，效果不是很好。语音数据集太大，我这个算力也是做梦，看看能不能自定义一个语音数据集，把目标视频截取一段下来来学习（等等，这样样本太少了，看来没得救了）

Source:

ROCm：https://github.com/RadeonOpenCompute

Anaconda安装：https://blog.csdn.net/wust_lh/article/details/80408505

tensorflow On AMD GPU：https://blog.csdn.net/weixin_43877139/article/details/99697119，https://www.jianshu.com/p/6fabdcde831b

讯飞：https://www.xfyun.cn/services/lfasr

其他：https://www.cnblogs.com/yin52133/archive/2012/07/12，https://blog.csdn.net/AMDS123/article/details/70313780/2588201.html，https://blog.csdn.net/godloveyuxu/article/details/77416017，https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell2，https://blog.csdn.net/chinatelecom08/article/details/82557715，https://www.zhihu.com/question/23473262（倒序排列）

语音识别（零）

About Cmplictd

发表回复取消回复

About Cmplictd

发表回复 取消回复

发表回复取消回复