定义和可视化真实标签
1、打开音频标签器应用程序1、MATLAB®工具条:在应用程序选项卡,在信号处理和通信,点击应用程序图标。2、MATLAB命令提示符:输入audioLabeler。
2、使用音频标记器创建关键字发现蒙版在此示例中,您为音频信号创建逻辑掩码,其中一个对应于发声“是”,镇胆严呢零对应于不存在盐淬芪求该发声“是”。要创建遮罩,您可以通过Audio Labeler应用程序使用IBM™语音文本API。本示例要求您安装语音转文字转录功能。收听您要标记的音频文件,然后在时域中对其进行可视化。[audioIn, fs] = audioread (" KeywordSpeech - 16-16 - mono - 34 secs. Flac ");Sound (audioIn, fs)T = (0: numel (audioIn) - 1)/fs.The plot (t, audioIn)Xlabel (' time (s) ')Ylabel (' amplitude')
3、打开Audio Labeler应用程序,然后将KeywordSpeech-16-16-mono-34secs.flac文件加载到数据浏览器中。
4、在“自动化”下,单击“语音转换为文本”。在“语音转文字”选项卡上,选择首选的语音转文字API。本示例使用IBM语音到文本API。选择“分段词”,以便将文本标签分为单个词而不是句子。单击运行以与语音转文本API交互并创建一个新的关注区域(ROI)标签。ROI标签包含由IBM的语音文本API检测并标记的单词。
5、关闭语音转换为文本选项卡,然后将标记的信号集导出到工作区。
6、标签将作为labeledSignalSet带有时间戳的对象导出到工作区。将变量设置为labeledSet带时间戳的labeledSignalSet对象。labeledSet = myLabeledSet;
7、检查SpeechContent标签。Marked speechContent = Set. Labels. SpeechContent {1}
8、语音转文字API以秒为单位返回ROI标签的限制。使用该SpeechContent表创建逻辑向量。KeywordLabels = speechContent (speechContent Value = = "yes", :);KeywordROILimitsInSamples = round (keywordLabels ROILimits * fs);Mask = zero (size (audioIn), "logic");For I = 1: size (keywordROILimitsInSamples)Mask (keywordROILimitsInSamples (I, 1) : keywordROILimitsInSamples (I, 2)) = true;The end of the
9、绘制语音信号和关键字识别蒙版。The plot (t, audioIn,...T, mask)Xlabel (' time (s) ')Ylabel (' amplitude)Legend (" audio ", "the key word ornament mask", "location", "southeast")