【论文精选】基于KELM决策融合的语音情感识别

摘要: 张雪英,张 乐,孙 颖,张 卫(太原理工大学 信息工程学院,山西 太原030024)摘 要: 针对语

张雪英,张  乐,孙  颖,张  卫

(太原理工大学 信息工程学院,山西 太原030024)

摘  要: 针对语音情感信号的复杂性和单一分类器识别的局限性,提出一种核函数极限学习机(KELM)决策融合的方法用于语音情感识别。首先对语音信号提取不同的特征,并训练相应的基分类器,同时将输出转化为概率型输出;然后利用测试集在基分类器的输出概率值计算自适应动态权值;最后对各基分类器的输出进行线性加权融合得到最终的分类结果。利用该方法对柏林语音库中4种情感进行识别,实验结果表明,提出的融合KELM方法优于常用的单分类器以及多分类器融合方法,有效地提高了语音情感识别系统的性能。

关键词: 语音情感识别;核函数极限学习机;决策策略;概率矩阵

中图分类号: TN912.3

文献标识码: A

DOI:10.16157/j.issn.0258-7998.165055

中文引用格式: 张雪英,张乐,孙颖,等. 基于KELM决策融合的语音情感识别[J].电子技术应用,2017,43(8):123-126,131.

英文引用格式: Zhang Xueying,Zhang Le,Sun Ying,et al. Speech emotion recognition based on decision fusion of KELM[J].Application of Electronic Technique,2017,43(8):123-126,131.

0 引言

人类的情感很难从一个量化的角度定义,其中语音是一种包含说话人信息、语义、情感的复杂信号,是识别情感状态的有效途径。语音情感识别是计算机分析语音信号的特征参数并自动判别情感状态的一门技术,是语音信号处理领域中非常重要的研究方向,广泛应用于人工服务、精神健康诊断治疗、远程教学、机器人等领域。

目前,国内外学者采用多种分类方法用于语音情感识别,常用的有隐马尔科夫模型(Hidden Markov model,HMM)、支持向量机(Support Vector Machine,SVM)和人工神经网络(Artificial Neural Network,ANN)等,NWE T L[1]等人对一个汉语普通话语音库和一个缅甸语语音库训练和测试HMM,对6种情感的平均识别率可以达到75.5%和78.5%,TATO R[2]等人使用SVM对喜、怒、悲、中性4种情感进行识别研究,最终平均识别率达到73%。极限学习机(Extreme Learning Machine,ELM)是由HUANG G B等[3]于2006年提出的一种应用于广义单隐层前馈神经网络的学习算法,与常用的ANN、SVM相比极大地提高了网络的学习速度和泛化性能[4],已经在故障诊断[5]、病理诊断[6]等领域得到应用。文献[7]中证明ELM与SVM分类精度相似,但学习速度优于SVM、参数选择更容易,同时文中将Mercer条件用于网络模型,提出性能更好的核函数极限学习机(Extreme Learning Machine with Kernel,KELM),据此本文采用KELM作为分类器。

传统的语音情感识别方法均是采用单一特征或多个特征简单相加来构建单个网络进行分类识别,这种模式若要达到最佳的识别结果,需选择最全面的输入特征以及最优的分类器,但是两者兼顾最优是很难实现的。近年来提出的融合技术[8]通过制定融合规则在一定程度上实现了两个“最优”。因此,本文提出融合KELM的方法,该方法不仅继承了极限学习机分类精度高、学习速度快的性能,还具有融合技术识别率高的优势。设计实验将本文方法在柏林语音库中测试,提取聚合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)特征、韵律特征、梅尔倒谱系数特征(Mel-Fregurecy Cepstrum Coefficients,MFCC),通过对基分类器的输出加权融合,实现语音情感识别。

1 核函数极限学习机

极限学习机的隐层参数均为随机产生,且无需迭代,因此比传统方法参数选择简单、学习速度快。核函数极限学习机由ELM衍生而来,其解决多分类识别问题的能力更强。对于一个输入为d维向量xi,输出标签为ti(i=1,…,N)的基本极限学习机模型描述为:

    KELM模型中,广义逆矩阵中的参数C与核函数中的参数g的选择会影响识别性能,需优化求解。

2 融合KELM

基于加权求和的分类器决策融合方法可以分为两种:基于硬判决输出和基于软判决输出的融合方法。对于前者,每个分类器的输出是一个标签,通过计算各分类器输出的所有类别数量,将得到最大的票数的类别作为最后的输出;而对于后者,每个分类器的输出为决策概率,各个分类器按照分配的权重加权求和得到输出结果。基于软判决输出的方法通过输出一个介于0~1之间的概率相比于输出0/1的硬判决输出方法更能准确地分类,故选择软判决的融合方法。

这里需要解决两个问题:(1)将KELM的数值输出转化为概率输出;(2)确定决策策略。

2.1 概率矩阵

基本KELM的输出为数值输出,为了将输出范围统一,仿照概率支持向量机的研究[10]将KELM的输出转化为概率形式:

2.2 决策策略

融合权值的确定是一个关键问题,决策权重一般由分类器在训练数据上的性能决定,决策时会给训练时性能好的分类器分配较大的权重,但这样会忽略测试样本的多样性和特性,所以计算权重分布时不仅应考虑分类器的性能,还应考虑测试样本的特性,这是本文制定决策策略的核心思想。融合KELM算法实现框图如图1。

该方法的具体实现如下:

(1)训练阶段

训练样本经预处理后,分别提取n类特征,记为F1,…,Fn,利用特征分别训练N个核函数极限学习机,记为KELM i,i=1,…,N。

(2)识别阶段

①对于预处理后的测试样本x,分别提取n类特征F1,…,Fn,将特征向量分别输入步骤(1)训练好的KELM i中。

②建立概率矩阵。利用式(1)建立分类器的概率矩阵。

③确定权值。将样本输入KELM中,若分类器将某样本分类至某标签的概率越大,说明该样本特征距离判别超平面越远,则分类器对该样本的分类越准确,其融合权重相应的应该越大,相当于“放大”准确程度,由式(10)计算第k组分类器各类别概率输出的最大值,记为: 

3 实验

3.1 实验数据

实验选用柏林语音库为数据库来源。选择293句包含4种情感、长度近似相等的语句组成本次实验数据库,其中高兴71句、悲伤62句、愤怒81句、中性79句,各选择 2/3作为训练样本,1/3作为测试样本。

3.2 实验与结果分析

对语音库中的样本进行预处理,主要包括端点检测、预加重和加窗分帧。特征选取前期提取的EEMD特征(提取过程说明:信号经EEMD分解后,选取前七阶固有模态分量提取能量特征)、韵律特征(包括基音频率、语速、短时能量、过零率、共振峰频率及统计参数)、MFCC 3种特征。

实验采用网格寻优法选择正则化系数和核函数参数g,反复试验对依据特征建立的3 个基分类器分别进行参数寻优,最终确定参数组合如表 1 所示。 

表2给出了各基分类器以及本文提出的决策融合方法(简称为FKELM)的实验结果,可以看出本文方法无论在4种情感的识别率还是平均识别率都有很大程度的提高,尤其是在情感“高兴”、“悲伤”中的表现,FKELM的识别率比相应识别率最高的基分类器分别提高了20.83%、15%,平均识别率相比于最好的基分类器也提高了11.52%,图2更直观地反映了识别性能的提高。

为了说明本文方法的优势,设计两组对比实验,第一组实验是与常用单分类器比较,将所有特征共1 069维输入分类器中,结果见表3,单分类器中BP神经网络的性能最好,但与FKELM相比仍有很大差距;第二组实验是与常用的融合策略相比,结果见表4,平均决策的平均识别率达到了81.81%,但与融合KELM的平均识别率还有近7%的差距。

从实验结果与对比实验结果看,本文提出的方法表现出了很大的优势,原因有三:(1)在特征方面,特征融合减弱了由于单一特征无法全面描述情感信息而导致的识别率低的缺点,在一定程度上提升了识别结果;(2)识别网络参数选择,考虑到特征的差异性,3组KELM的参数均分别寻优,选择了单个特征识别率最高情况下的参数组合;(3)决策策略的制定,权重依据分类器概率矩阵而定,综合权衡了分类器的性能和输入样本的特性,使得融合KELM方法比单分类器在决策时出错更少。因此本文提出的融合KELM是一个有效的语音情感识别方法。

4 结论

本文针对单分类器情况下识别性能不理想的问题,提出了融合KELM的方法,并提出一种同时考虑分类器性能和输入样本特性的决策策略。首先针对3类语音特征训练3个KELM,对基分类器分别寻优选择最佳参数组合,然后采用基于概率矩阵而制定的融合策略对基分类器的判决结果决策融合,在柏林语音库中进行验证。结果表明,相比于传统的单一分类器,本文方法的识别性能有很大程度提高,与经典决策策略相比也有明显优势,为语音情感识别提供了一种可靠的方法。

参考文献

[1] NWE T L,FOO S W,DE S L C.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.

[2] TATO R,SANTOS R,KOMPE R,et al.Emotion space improves emotion recognition[C].Denver,Colorado:CSLP,2002.

[3] HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1):489-501.

[4] 邓万宇,郑庆华,陈琳,等.神经网络极速学习方法研究[J].计算机学报,2010,33(2):279-287.

[5] 陈绍炜,柳光峰,冶帅.基于核极限学习机的模拟电路故障诊断研究[J].西北工业大学学报,2015,33(2):290-294.

[6] 刘小峰,张翔,王雪.基于EEG去趋势波动分析和极限学习机的癫痫发作自动检测与分类识别[J].纳米技术与精密工程,2015,13(6):397-403.

[7] HUANG G B,ZHOU H,DING X,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man,and Cybernetics-Part B:Cybernetics,2012,42(2):513-529.

[8] HALL D L,LLINAS J.An introduction to multisensor data fusion[J].Proceedings of the IEEE,1997,85(1):6-23.

[9] 张文博,姬红兵.融合极限学习机[J].电子与信息学报,2013,35(11):2828-2732.

[10] PLATT J C.Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[M][S.1.]:Massachusetts Institute of Technology Press,1999.


首页 - 电子技术应用ChinaAET 的更多文章: