首页 > 分享 > 动物声音情绪识别系统及其方法专利检索

动物声音情绪识别系统及其方法专利检索

萌宠菠菠乐园
2024-10-21 10:28

动物声音情绪识别系统及其方法

技术领域

[0001] 本发明涉及语音识别技术，尤其涉及一种动物声音情绪识别系统及其方法。

背景技术

[0002] 随着动物行为学研究的发展，人类对动物的情绪表达越发重视。动物通过声音和动作等特定行为表达情绪；其中，动物声音与人类语言类似，可实现同种物种之间的交流。长期以来，人们对动物情绪的感知仅局限于长期的经验总结和直觉判断上；如何实时有效地感知动物情绪成为新兴的研究方向。随着机器学习与人工智能的发展，人们可通过机器翻译技术进行不同语言的交流，因此，该项技术使动物声音情绪识别成为可能。动物声音情绪识别在动物行为学研究、宠物叫声翻译、动物园应急报警等领域具有重要的应用价值。
1997 年 MIT 媒体实验室的 Rosalind Picard 教授提出“情感计算（Affective Computing）”的概念，目的是研究和开发出能够识别、翻译、处理和模仿人类情感反应的设备。该领域的一个分支——情感语音（Emotional Speech）得到快速发展，提升了人机交互的情感真实度。但针对动物声音情绪的研究甚少，英国格拉斯哥大学的Pascal Belin 团队对猫和猴子叫声进行分析，并分成积极和消极两种情绪，情绪维度过少；匈牙利罗兰大学的 Csaba Molnar 等人应用机器学习的方法对狗的六种不同行为对应的叫声进行分析，识别率偏低；国内主要研究基于动物叫声的物种识别与个体辨认技术，动物声音情绪资源匮乏，研究进展相对缓慢。

[0003] 总体来看，国外对于野外动物声音识别技术的研究已取得阶段性成果，但相关技术细节均未公开；国内尚处于实验室研究阶段，研究对象大多数仍为常见的家畜，尚未出现一款成型的可以直接使用的动物情绪类声音识别系统。

发明内容

[0004] 本发明的目的是针对动物声音情绪的动物声音采集与特征参数的提取、动物声音特性与人类语音的差异性分析以及声音的衰减、变异加大识别难度等一系列问题，提供一种动物声音情绪识别系统及其方法，从而实现：

[0005] 1、基于高斯模型的动物声音情绪识别技术，掌握动物生活习性，提出切实[0006] 有效的动物保护措施；

[0007] 2、特征组合和模型自增强，提高识别概率。

[0008] 本发明的设计思路是：

[0009] 由于存在噪音的干扰，动物声音信号的采集可能存在误差，为了提高动物情绪的声音识别率，设置Mel带通滤波器组，进行声音降噪处理。类比现代语音识别的非特定人语音识别和声纹识别技术，结合野生动物声音特性，设计基于混合高斯模型的动物声音识别技术。同时，考虑到声音的衰减、变异加大识别难度，将采用高保真音频采集器，增强声音信号。

[0010] 针对声音识别的需要，首先建立动物情绪声音标准数据库，设定声音识别基准。针对特定动物，提取相应声音文件，提取梅尔-频率倒谱系数、共振峰以及过零率等特征参数，搭建动物声音的高斯混合模型，进行特征组合；其次，设计声音信号采集和处理系统，实现动物声音采集、A/D转换、预处理和特征参数提取以及声音信号的识别；针对声音识别复杂的浮点运算需求，选用DSP，对声音信号进行预处理、端点检测、特征参数提取等操作；预处理包括抗混叠滤波、模数变换、分帧和预加重；端点检测采用了短时能量和短时平均过零率的VUS算法；另外，由于梅尔-频率倒谱系数（Mel-Frequeney Cepstrum- Coeffieient，MFCC）有较好的声学特性，故选用作特征提取的参数；最后，设计无线传感器网络，实现模型的自增强，提高识别率；搭建无线传感器网络，当声音数据与模板库匹配后得到的匹配概率大于某一阈值时，将声音数据远程传输至服务器端加入至训练集，实现模型自增强。

[0011] 本发明的技术方案是：

[0012] 一、动物声音情绪识别系统

[0013] 本系统包括音频处理装置、数据处理装置、无线传输装置和电源；

[0014] 其连接关系是：

[0015] 音频处理装置、数据处理装置和无线传输装置依次连接；

[0016] 电源分别与音频处理装置和数据处理装置连接。

[0017] 二、动物声音情绪识别方法

[0018] 本方法包括模型建立、情感识别和模型自增强三个部分。

[0019] ①声音数据模板库和模型的建立

[0020] 对收集到的国内外开放的动物情绪声音数据，进行端点检测提取出梅尔-频率倒谱系数、共振峰和过零率三个特征参数，对提取的特征参数建立高斯混合模型，训练出动物情感声音的高斯混合模型，建立动物情感声音数据模板库；

[0021] ②情绪识别

[0022] 将采集到的声音信号通过抗混叠滤波、模数变换、分帧和预加重预处理以及端点检测，提取出梅尔-频率倒谱系数、共振峰和过零率三个特征参数后，对其进行特征组合，与搭建好的动物情绪声音的声学模型进行匹配得出后验概率，最后经过概率比较得到识别结果并输出；

[0023] ③模型自增强

[0024] 当所采集的情绪声音信号与某种情绪声音模型匹配所得到的后验概率大于设定的阈值，将该声音数据和匹配结果更新到已建好的动物情绪声音数据模板库，不断训练声学模型，实现模型的自增强，提高动物声音情绪的识别率。

[0025] 本发明具有以下优点和积极效果：

[0026] ①提供了一种对声音信号提取特征参数并进行建模的技术方案

[0027] 对采集到的声音信号进行一系列的预处理、端点检测和特征参数的提取，针对特定的动物所提取该动物声音数据的MFCC特征参数，建立动物声音情绪的高斯混合模型，将处理后的声音数据样本进行模式匹配和分析；

[0028] ②提供了一种特征组合提高动物声音情绪识别概率的技术方案

[0029] 对所提取的声音信号的MFCC参数、共振峰以及过零率等三个特征参数，提出三特征加权法，将三种情感特征按照相应的权重组合，通过采集的模板声音数据库进行训练，确定最优加权参数；

[0030] ③提供了一种应用无线传输网络传送声音数据实现模型自增强提高识别率的技术方案

[0031] 应用移动无线传输网络，当声音情绪识别所得到的后验概率大于某一预设阈值时，判定该声音符合模型训练条件，并将声音数据传送到服务器端加入到模板声音数据库，实现数据库和动物情绪声音模型的更新和增强，提高识别率；

[0032] ④适用于动物园、农林部门和野生动物保护部门对动物生活习性的及时掌控以及保护策略的制订；还适用于日常家居方便人与宠物之间的互动交流。附图说明

[0033] 图1是本系统的结构方框图；

[0034] 图2是模型建立和情绪识别的原理说明图；

[0035] 图3是数据处理芯片22的工作流程图；

[0036] 图4是模型自增强的流程图。

[0037] 图中：

[0038] 10—音频处理装置，

[0039] 11—音频采集器，12—音频输出器，

[0040] 13—音频解码器；

[0041] 20—数据处理装置，

[0042] 21—通信接口，22—数据处理芯片，

[0043] 23—闪存存储器（FLASH ROM），24—随机存储器（SDRAM RAM），[0044] 25—JTAG仿真接口，26—HPI主机接口，

[0045] 27—外部扩展接口；

[0046] 30—无线传输装置；

[0047] 40—电源。

具体实施方式

[0048] 下面结合附图和实施详细说明：

[0049] 一、系统

[0050] 1、总体

[0051] 如图1，本系统包括音频处理装置10、数据处理装置20、无线传输装置30和电源40；

[0052] 其连接关系是：

[0053] 音频处理装置10、数据处理装置20和无线传输装置30依次连接；

[0054] 电源40分别与音频处理装置10和数据处理装置20连接。

[0055] 其工作机理是：

[0056] 音频处理装置10受数据处理装置20的管理和控制，为数据处理装置20提供基础数据资料；

[0057] 数据处理装置20对音频处理装置10和无线传输装置30进行管理和控制；

[0058] 无线传输装置30的传输对象来自于数据处理装置20处理后的数据，无线传输装置30的传输过程受到数据处理装置20的管理和控制；

[0059] 音频处理装置10、数据处理装置20以及无线传输装置30都由电源40供电。

[0060] 2、功能部件

[0061] 1）音频处理装置10

[0062] 音频处理装置10包括依次连接的音频采集器11、音频解码器12和音频输[0063] 出器13；

[0064] （1）音频采集器11

[0065] 音频采集器11采用高保真型音频采集器；

[0066] 对动物声音进行采集，再将采集到的动物声音数据经过音频解码器11解码。

[0067] （2）音频解码器12

[0068] 音频解码器13采用TI公司生产的音频处理芯片TLV320AIC34，对音频信号进行解码调制；

[0069] 将采集的信号传送至数据处理装置20，或将经由数据处理装置20处理后的数据通过音频输出器12输出。

[0070] （3）音频输出器13

[0071] 音频输出器13采用市场上普通扬声器即可；

[0072] 用于语音输出动物声音的情绪识别结果。

[0073] 2）数据处理装置20

[0074] 数据处理装置20包括通信接口21、数据处理芯片22、闪存存储器23、随机存储器24、JTAG仿真接口25、HPI主机接口26和外部扩展接口27；

[0075] 其连接关系是：

[0076] 数据处理芯片22分别设置有通信接口21、JTAG仿真接口25、HPI主机接口26和外部扩展接口27；

[0077] 数据处理芯片22分别连接有闪存存储器23和随机存储器24。

[0078] （1）通信接口21

[0079] 通信接口21是一种多功能的同步串行接口，具有很强的可编程能力，可以[0080] 配置为多种同步串口标准，直接与各种器件高速接口；

[0081] 负责外部音频处理装置10与数据处理芯片22间的通信。

[0082] （2）数据处理芯片22

[0083] 数据处理芯片22为本发明的核心部分，采用TI公司的TMS320C6713（主频225 MHz）型DSP芯片；

[0084] 主要负责对收集到的声音信号进行预处理、端点检测以及语音识别等处理。

[0085] 如图2，其语音识别的原理是：

[0086] 先是收集情绪声音数据作为训练样本230；

[0087] 然后对其提取MFCC参数、共振峰以及过零率三个特征参数并进行特征组合，建立高斯混合模型240；

[0088] 对高斯混合模型按情绪类别分类，形成各个情绪类别223的声学模型222；

[0089] 当采集到未知情绪的动物声音数据200时，对其进行抗混叠滤波、模数变换、分帧和预加重预处理以及端点检测并提取特征参数210，然后与各个情绪类别下的声学模型相匹配，计算后验概率221，选取后验概率最大所对应的情绪类别为识别结果，最后得到动物情绪250。

[0090] （3）闪存存储器23

[0091] 闪存存储器23是一块单片16位的闪存存储器，用于扩展外部大容量，保存固件或参数；

[0092] 数据处理芯片22可直接对其进行读写。

[0093] （4）随机存储器 24

[0094] 随机存储器24是一块单片32位的随机存储器，用于扩展外部大容量，保存模型参数或声音数据；

[0095] 数据处理芯片22可直接对其进行读写。

[0096] （5）JTAG仿真接口25

[0097] JTAG仿真接口25是一种由数据处理芯片22提供的60芯的JATG仿真器接口，采用间距 0.635mm 高密度连接器；

[0098] 数据处理芯片22可通过JATG仿真接口25与硬件仿真器相连接后再接到计算机主机，实现与计算机的数据通信。

[0099] （6）HPI主机接口26

[0100] HPI主机接口26是由数据处理芯片22片提供的一个外部与主机通信的并行接口；

[0101] 外部主机可以通过HPI主机接口26访问数据处理芯片22的存储器映射空间。

[0102] （7）外部扩展接口27

[0103] 外部扩展接口27是一种由数据处理芯片22提供的接口；

[0104] 主要用于连接无线传输装置30，实现数据处理芯片22与外设服务器的通信。

[0105] 3）无线传输装置30

[0106] 无线传输装置30为一种无线收发装置，采用美国DIGI公司的XBee模块，是一种远距离低功耗的数据传输模块，频段有2.4G，900M，868M三种同时可兼容802.15.4协议；

[0107] 主要负责将数据处理芯片22传送来的数据传送回外设服务器进行模型自增强，同时接收服务器上模型自增强后的模型参数传送回数据处理芯片22。

[0108] 二、方法

[0109] 1、数据处理芯片22的工作流程

[0110] 如图3，数据处理芯片22的工作流程如下：

[0111] A、系统初始化-301；

[0112] B、采集动物声音信号-302；

[0113] C、对采集到的声音信号进行抗混叠滤波、模数变换、分帧和预加重预处理-303；

[0114] D、进行端点检测-304；

[0115] E、提取出梅尔-频率倒谱系数、共振峰和过零率三个特征参数-305；

[0116] F、与建立好的声音情绪模型相匹配，得到每个模型下对应的后验概率-306；

[0117] G、比较每个模型下的后验概率，选取最大后验概率所对应的情绪模型，即为所得的识别结果-307；

[0118] H、将该后验概率与预设的概率阈值进行比较-308，判断后验概率是否大于设定阈值，是则进入步骤I；否则，进入步骤J；

[0119] I、将该声音数据连同识别结果通过无线传输网络传送回服务器端进行模型自增强-309，然后进行步骤J；

[0120] J、通过音频输出装置语音输出识别结果-310，再进入步骤B；

[0121] 循环执行。

[0122] 2、模型自增强的流程

[0123] 如图4，模型自增强主要在外设服务器上实现，其流程如下：

[0124] a、接收由无线传输装置30传输声音数据-401；

[0125] b、将接收的声音数据保存到早先建立好的声音数据模板库中-402；

[0126] c、对更新后的声音数据模板库中的数据进行抗混叠滤波、模数变换、分帧和预加重预处理以及端点检测-403；

[0127] d、从更新后的模板库声音数据中提取出梅尔-频率倒谱系数、共振峰和过零率三个特征参数，并按照权重对其进行特征组合-404；

[0128] e、对提取出来的特征向量建立高斯混合模型，更新原有模型参数-405；

[0129] f、将更新后的模型参数传输数据处理装置20并存储-406。

江苏炭元新材料科技有限公司招聘信息

济源市宠物医院联系方式及地址详情一览

分享热点排名

养玉米蛇的危害

狗交配为什么会锁住？从狗狗生理结构来分析

推荐分享

缅因猫能长多大一种体型较大的猫

警惕狗贩的骗人损招星期狗的症状特征

即时知识

阿拉伯灵缇

玛尔济斯

分享分类导航

萌宠日常

宠物饲养指南

宠物营养食谱

动物声音情绪识别系统及其方法专利检索