介绍
这篇文章介绍了如何在TIMIT数据集上运行Kaldi。
准备工作
- Ubuntu 18.04 LTS
- 编译完成的Kaldi
- TIMIT数据集
第一步 准备数据
将下载好的TIMIT数据集文件夹放到/home/weiwei/weiwei文件夹下并重命名为timit_data,即数据集文件夹的完整路径是/home/weiwei/weiwei/timit_data。具体目录结构如下:
/home/weiwei/weiwei/kaldi/
├── cmake
├── CMakeLists.txt
├── COPYING
├── docker
├── egs
├── INSTALL
├── misc
├── README.md
├── scripts
├── src
├── tools
└── windows
/home/weiwei/weiwei/timit-data/
├── DOC
├── README.DOC
├── TEST
└── TRAIN
第二步 修改代码
进入kaldi/egs/timit/s5目录中,一些脚本不符合我们的运行需求,需要进行修改。
cmd.sh用于定义一些运行的命令,由于我们是在本机运行,没有排队系统,把所有queue.pl更改为run.pl同时删除--mem参数。
在run.sh中,把timit变量更改为实际的TIMIT数据集目录,例如:
timit=/home/weiwei/weiwei/timit-data
删除run.sh中部的exit 0
,使脚本能完整运行。
如果运行run.sh脚本时报错,提示IRSTLM没有安装,根据提示信息,进入kaldi/tools文件夹中,安装IRSTLM:
cd /home/weiwei/weiwei/kaldi/tools
extras/install_irstlm.sh
运行run.sh脚本:
cd /home/wewei/weiwei/kaldi/egs/timit/s5
./run.sh