初识声纹
1. 声纹概念
声波频谱
声纹(Voice print)是用电声学仪器现实的携带言语信息的声波频谱, 是由波长频率以及强度等百余种特征维度组成的生物特征,具有稳定性、可测量性、唯一性等特点。
易变性
每个人的语音声学特征既有相对稳定性,又有易变性,不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。
2. 声纹识别的分类
(1)Verification 和 Identification
与人脸识别类似,声纹识别有人声验证和人声识别两类应用场景(汉语可能不准确,以英文为准)
(2)Text-Dependent 和Text-Independent
在识别(Identification)应该场景下,还有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。
与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户 与文本无关的(Text-Independent)
与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。
(3)open-set 和 close-set
开集(open-set) 辨认:假定待识别说话人可以在集合外 闭集(close-set) 辨认:假定待识别说话人在集合内显然,闭集辨认需要有一个对集