语音识别(零)

对照最近的to-do list,最终拿了开源的ASRT release(https://github.com/nl8590687/ASRT_SpeechRecognition/releases)试了下,暂时cpu跑通了。

我一开始想当然地以为没什么问题,然后发现默认的python3.8版本太高没有适配的tensorflow,于是转而用python3.6和anaconda。另外tensorflow-gpu不支持amd gpu,amd有个ROCm,但是只能在ubuntu上跑。如果要跑ubuntu,我多半不会去搞双系统(我不是来复习装双系统的,只想试试语音识别 -_-!),那么虚拟机的话, vmware没法直通显卡,hyper-V可能可行,但是ubuntu下特么要是不行就尴尬了;直接linux子系统也是。于是就不用gpu了,cpu怼上去。

一环套一环理清楚后,下载anaconda,经网友提醒把源换成清华的(pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple),然后装依赖。没有tensorboard 2.1.0的包,手动 安装 指定版本( pip install tensorboard==2.1.0)失败,找了个官方whl路径(https://pypi.org/project/tensorboard/#files具体文件)来指定安装。然后对照ASRT文档补上缺少的依赖,没什么大问题。执行时,先到conda的环境中,然后执行python test.py,否则直接跑test.py还是用的本机环境python 3.8执行的。

拿了一段测试语音和截取的视频录音,测试语音还行,拼音问题不大,换成文字基本上全错,但是视频的就不太行了,语速一快就飞了,根本看不懂。改天拿个百度或者讯飞的免费api试试,不知道会不会真香。视频截取的语音,除了语音还有背景音乐,虽然不大但也会影响,而且语速快、中英夹杂比较多,效果不是很好。语音数据集太大,我这个算力也是做梦,看看能不能自定义一个语音数据集,把目标视频截取一段下来来学习(等等,这样样本太少了,看来没得救了)

Source:

ROCm:https://github.com/RadeonOpenCompute

Anaconda安装:https://blog.csdn.net/wust_lh/article/details/80408505

tensorflow On AMD GPU:https://blog.csdn.net/weixin_43877139/article/details/99697119,https://www.jianshu.com/p/6fabdcde831b

讯飞:https://www.xfyun.cn/services/lfasr

百度:https://ai.baidu.com/tech/speech/asrpro?track=cp:ainsem|pf:pc|pp:chanpin-yuyin|pu:yuyin-yuyinshibie-1|ci:|kw:10003600

其他:https://www.cnblogs.com/yin52133/archive/2012/07/12,https://blog.csdn.net/AMDS123/article/details/70313780/2588201.html,https://blog.csdn.net/godloveyuxu/article/details/77416017,https://github.com/kaldi-asr/kaldi/tree/master/egs/aishell2,https://blog.csdn.net/chinatelecom08/article/details/82557715,https://www.zhihu.com/question/23473262(倒序排列)

Posted in IT

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

error: Content is protected !!