首页 > 分享 > 一种应用在服务机器人上的宠物叫声识别方法与系统与流程

一种应用在服务机器人上的宠物叫声识别方法与系统与流程

本发明涉及一种发明专利:一种应用在服务机器人上的宠物叫声识别方法与系统,是通过服务机器人本体的上语音识别系统将宠物叫声识别为一个特征值文本,然后从宠物叫声识别系统的数据库中按照场景、动作、意图三个数据项进行匹配获取表达内容。这个系统采用了一个由宠物的主人辅助实施的宠物叫声识别学习模型,让系统通过一个闭环强化学习:宠物叫声→机器人宠物叫声识别给出特征值文本→系统数据库根据场景、动作、意图匹配出表达内容并让用户修改或者无匹配时由用户添加表达内容→该表达内容作为下次识别时的匹配项。本系统同时建立云端平台,将每个服务机器人上的宠物叫声识别系统数据与云端平台连接,让云平台的宠物叫声识别系统获得每个服务机器人上的宠物叫声识别交互数据并通过机器学习形成宠物叫声云识别方案,服务机器人每次对宠物叫声识别时,都将云识别方案获得的表达内容作为关联词条给出,供宠物主人参考,必要时将云识别获取的表达内容作为最终的表达内容。

背景技术:

语音识别技术,也被称为自动语音识别automaticspeechrecognition,(asr),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术所涉及的领域包括:信号处理、模式语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成:

l.信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。

2.统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。

3.发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。

4.语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的n元文法及其变体。

解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。

技术实现要素:

本发明以服务机器人应用软件的形态在服务机器人本体中安装、保存、运行,并通过服务机器人本体的通讯网络与云端数据库连接。适用于包括桌面陪伴型机器人、地面移动型服务机器人、家庭服务机器人、迎宾接待机器人、扫地机器人等各类功能与形态的服务机器人。

本发明建立的是一种人工辅助的机器学习系统,这个系统采用了一个由宠物的主人辅助实施的宠物叫声识别学习模型,让系统通过一个闭环强化学习:宠物叫声→机器人宠物叫声识别给出特征值文本→系统数据库根据场景、动作、意图匹配出表达内容并让用户修改或者无匹配时由用户添加表达内容→该表达内容作为下次识别时的匹配项。

本发明采用的技术方案是:一种应用在服务机器人上的宠物叫声识别方法与系统,是通过服务机器人本体的上语音识别系统将宠物叫声识别为一个特征值文本,然后从宠物叫声识别系统的数据库中按照场景、动作、意图三个数据项进行匹配获取表达内容。这个系统采用了一个由宠物的主人辅助实施的宠物叫声识别学习模型,让系统通过一个闭环强化学习:宠物叫声→机器人宠物叫声识别给出特征值文本→系统数据库根据场景、动作、意图匹配出表达内容并让用户修改或者无匹配时由用户添加表达内容→该表达内容作为下次识别时的匹配项。本系统同时建立云端平台,将每个服务机器人上的宠物叫声识别系统数据与云端平台连接,让云平台的宠物叫声识别系统获得每个服务机器人上的宠物叫声识别交互数据并通过机器学习形成宠物叫声云识别方案,服务机器人每次对宠物叫声识别时,都将云识别方案获得的表达内容作为关联词条给出,供宠物主人参考,必要时将云识别获取的表达内容作为最终的表达内容。

本发明的有益效果是通过建立一种宠物发声的语音识别方法与系统,帮助人们尤其是养宠物的人更好的理解宠物叫声,这不仅有利于强化和改善人与宠物的沟通,也有利于语音识别技术在更广泛领域的应用。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是宠物叫声识别图。

图2是宠物叫声识别系统流程图。

图3是宠物叫声识别云端平台连接图。

具体实施方式

在图1中,本发明根据宠物叫声结合其所处场景、行为、意图建立宠物叫声识别系统。宠物叫声识别系统由信号处理及特征提取模块、统计声学模型、发音词典、解码器四个主要部分组成,为了简化语音识别系统,本发明并不涉及语言模型,认为宠物的每一次发声都是在一定场景和动作下的一定意图的表达,而非自成体系有上下文及逻辑关系的语言表达。

在图2中,宠物叫声识别系统由信号处理及特征提取模块从麦克风输入信号中提取宠物叫声特征,统计单一及连续叫声的特征,然后建立一个发音词典,具体表现为一系列的叫声的特征值文本,这个特征值文本是由拟音的汉字或英文字符串组成,如狗叫声转换的文本“汪—汪”、猫叫声识别后转换的文本“mrow”。每种宠物的特征值文本表达方式可不相同,但一种宠物的特征值文本表达方式应一致,要么采用汉字表达,要么采用英文字符串表达。

根据人们的经验总结,狗有如下的一些典型的叫声特征(即特征值文本)及可能的内容表达:

1.“恩—恩”声:连续低沉,近乎是抽泣的鼻音如果连续不断,则表示痛苦加重,可能是生病或受伤

2.嗷叫声:犬遭受突如其来的剧烈疼痛时发出的短促而高昂的叫声。如被踩伤、夹伤时,其他犬会上前来安慰,但受伤犬不能告诉同伴自己为什么会被夹伤或被什么东西夹伤等信息

3.“啤—呜”声:发出由高到低、长长的嚎叫声,似狼嚎。表示痛苦、无聊或呼唤远方的朋友

4.“呜—呜”声:犬在悲伤寂寞时发出的声音。如在幼犬离开母亲、欲望无法达到、向主人表示乞求等时所发出的声音

5.“汪—汪”声:高音调的“汪汪”声表示发现情况向同伴或主人报警,如有陌生人闯入;温柔、短促的低音调“汪汪”声,表示高兴或有所要求,如主人回家或乞食时

6.“喔喔”声:当犬遇敌或警觉时发出的短促、连续而声音洪大的叫声,用来恫吓对方,如陌生人走进犬的家门口,或两条犬狭路相逢时

7.“喔—喔”声:当“喔喔”声,音调变低、音节拖长、沉重时,极具威胁性,表示犬要发动进攻了,如陌生人走到犬的面前,或狭路相逢的犬没有丝毫让步时

8.“欢乐歌声”:犬在情绪欢愉时,可在口琴、钢琴等伴奏下发出独特而有节奏的吠叫声,我们把这种叫声称为犬的“欢乐歌声”。

根据人们的经验总结,猫有如下的一些典型的叫声特征(特征值文本)及可能的内容表达:

1.miaowbu快喂我啦!肚子饿了

2.meeow来摸我嘛!喵喵要你疼

3.mrooww我好爱你唷

4.miioo-oo-oo猫咪情人就在门外等我了,我想出去”嘿嘿”,拜托让我出去啦!我,我想要...

5.mrow只是想发点声音,没事~

6.rrrow-mawww麻烦帮我清个猫盆,有点脏了

7.rrrow-miawww我正在奋力地耙猫沙,好把便便盖起来

8.miaowmiaow来陪我玩啦

9.miaowmioaw(大声)你没发现屋子里的猫玩具,好像有点少,不够玩啦~

10.mioawmioaw既然家里没好玩,那就别怪我去抓家具唷!别打我~

11.raowwwww回避!我要舔净”私处”,保持清洁很重要的啦!

12.mrowwwww正在不爽啦,才从兽医那儿回来,心有余悸,怕怕~

13.roww-maww-roww太好了,你终于回家了

14.gakk-ak-ak糟了,肚子里有毛球,太不舒服啦,我要.....吐了~恶~

15.mow能这样懒洋洋地蜷伏着,真是好

16.moww伸个懒腰,也不错

17.mowww!我正在享受一个人窝在角落的舒适,再伸个懒腰,舒服死啦

18.miaow!miaow!咦!这是个什么好地方,竟然给我发现到。里头窄归窄,还挺有趣的,有衣服,裤子。哇赛,后头还有个小空间。躲在里头,准让主人找不着。就来个躲猫猫游戏吧!

19.mraakk!喂!可爱小鸟,别害怕!飞来我这儿嘛!

20.ssssroww!嘿!嘿!我找到一个会动的怪东西o~`

21.mmmmmmm能躺在这个阳光的午后,晒晒太阳,实在是个享受,真是心满意足

22.mreoaw伙计,打个商量,再来点鱼罐头啦!

23.mreeeow猫草真是个好东西,闻起来,就让我神清气爽,再来点吧!

24.mroow挤在这个小地方,这样看起来,我有没有比较小而美呀?

以上无论是狗的叫声含义还是猫的叫声含义都是宠物主人根据自己的观察经验总结出来的,其观察样本量未必达到可作为经验总结的要求,也不一定具有普适性,我们需要系统地方法来汇总记录、统计甚至不停地修正完善这些经验值,从而获得更丰富的特征值文本库,也就是说,一套随时可使用的方法将有助于宠物叫声识别经验的总结,而服务机器人作为未来在家庭中陪伴宠物最多的成员,可承担这一任务。

我们需要建立一个标准化的宠物叫声语音识别数据库,这个数据库有五个数据项,分别是叫声特征值文本、场景、动作、意图、内容。适用的宠物是狗、猫、龙猫、仓鼠、松鼠、兔子等,尤其适用于狗、猫两类叫声较频繁且复杂的宠物。

叫声:存储宠物的叫声特征值文本,包括单声、连续声、组合声等,是经过服务机器人语音识别后转换成的叫声特征值文本库,而非原始的叫声。本发明不认为宠物有系统的语言表达,所以叫声中并没有语法结构等内容,而只有根据场景、动作、意图关联的叫声音。

场景:是描述宠物发声时所处的空间环境及社交场合的标签,有助于系统对宠物发声的背景条件进行了解。系统设定的初始场景包括室内、室外、客厅、餐厅、厨房、卧室、卫生间、阳台、花园、大街、早晨、中午、晚上、潮湿、干燥、炎热、冰冷、嘈杂、寂静、拥挤、独处、多人、多猫、多狗、猫狗同处等25个值,用户可根据需要增加这些场景标签,但不得删除和修改已建立的初始值标签,因为这些标签将作为云平台数据库场景数据项的基础。使用时,每次可使用一个到多个场景值。

动作:宠物当前的动作与状态。包括站立、静坐、躺卧、四脚朝天、慢走、快走、跑动、跳跃、无聊、坐立不安、徘徊、聆听、游戏、浅睡、熟睡等15个初始值。户可根据需要增加这些动作标签,但不得删除和修改已建立的初始值标签,因为这些标签将作为云平台数据库场景数据项的基础。使用时,每次只可关联一个动作值。当用户没有进行任何选项操作时,系统缺省值为“站立”。

意图:主人观察并主观判断出的宠物的可能的意图与下一步动作,如饿了、累了、想睡觉、想出去,当然也可能没有意图(代表这是一个常规的叫声)。意图可以是当前动作的继续,如狗在跑动过程中,发出叫声,它仍在保持继续跑动,这时可用继续跑动作为意图;也可能是一个明显关联的动作,如晚上猫走向猫窝,意图很明显是睡觉。系统设定的初始意图值(如表1)包括无意图、想吃、想睡、小便、大便、想出去、想与主人玩耍、想安静、好奇、紧张、不喜欢、想认识、别烦我、别动我的东西、想停止等15个值。用户可根据需要增加这些意图标签,但不得删除和修改已建立的初始值标签,因为这些标签将作为云平台数据库场景数据项的基础。使用时,每次只可关联一个意图值,其中第一个值“无意图”代表无法获知宠物当时的意图,当用户没有进行任何选项操作时,系统缺省值为“无意图”。

表一:系统设定初始意图值。

当宠物的某个叫声被宠物叫声识别系统识别(系统保存有该叫声的特征值),并给出特征值文本时,跟随的场景、动作、意图三种标签将同时呈现给用户,并提示用户对这三个标签进行更改,如在提醒时间内无更改,则特征值文本匹配当前呈现的三种标签从数据库中提取表达内容,如果数据库中有对应的表达内容的,则提取;如果数据库中没有对应的表达内容的,则返回“我不知道它在说什么”,并提示用户马上手动添加表达内容。系统需要用户(宠物主人)确认或添加场景、动作、意图标签,然后进行三个操作。第一个操作,从云端匹配一个最接近的内容答案,如果宠物主人选择此答案,则今后系统接收到同样的叫声就会自动匹配该内容作为语音识别结果,第一个操作如未作选择,则跳转到第二个操作;第二个操作,由主人通过选择已有内容选项、语音或文本添加等方式为这个叫声匹配一个语音识别结果。如果第二个操作并未执行,没有任何内容被匹配则跳转到第三个操作。第三个操作,将此叫声列为不用理会的特征值,在识别内容上被赋值为“我不知道它在说什么”。

当宠物的某个叫声无法宠物叫声识别系统识别,即系统不保存有该叫声的特征值,这时系统提示用户对该叫声赋予特征值文本名称,按照已有的特征值文本的命名规范进行操作,特征值文本保存时,系统会自动匹配场景、动作、意图的缺省值,除非用户此时进行个性化设定。

在图3中,本系统同时建立云端平台,将每个服务机器人上的宠物叫声识别系统数据与云端平台连接,让云平台的宠物叫声识别系统获得每个服务机器人上的宠物叫声识别交互数据并通过机器学习形成宠物叫声云识别方案,服务机器人每次对宠物叫声识别时,都将云识别方案获得的表达内容作为关联词条给出,供宠物主人参考,必要时将云识别获取的表达内容作为最终的表达内容。

本发明的宠物叫声识别方法与系统使用流程:由于本系统是配合服务机器人使用的,因此,服务机器人本体要具备语音识别功能:通常由包含了麦克风阵列、降噪、语音识别算法的语音识别模块组成,结合本发明使用时,语音识别模块将获得的宠物叫声经过分析转换为宠物叫声特征值文本,这个特征值文本是由拟音的汉字或英文字符串组成,如狗叫声转换的文本“汪—汪”、猫叫声识别后转换的文本“mrow”。每种宠物的特征值文本表达方式可不相同,但一种宠物的特征值文本表达方式应一致,要么采用汉字表达,要么采用英文字符串表达。

将获得的特征值文本与宠物叫声识别数据库进行比对,比对时要求宠物主人提供场景、动作、意图三种标签,如果主人未能提供则自动匹配缺省值,比对如果获得一个唯一的表达内容,则此内容即为最终的宠物叫声识别内容,服务机器人通过音箱将内容播报出来,并在机器人所带的显示屏进行显示。比对如果未获得表达内容,服务机器人会提示用户添加一个表达内容,并将添加的表达内容作为下一步符合同样匹配条件情况出现时的内容呈现。

如果某个叫声是系统未能保存特征值的,则由用户辅助机器人进行学习,为此叫声特征值赋予一个表达内容,并关联场景、动作、意图三种标签。

以猫、狗两类宠物为例,说明建立初始宠物叫声识别数据库的方法(如表2、表3)。

表二:初始猫叫声识别数据库示例。

表三:初始狗叫声识别数据库示例。

 

技术特征:

技术总结
本发明涉及一种应用在服务机器人上的宠物叫声识别方法与系统,是通过服务机器人本体的上语音识别系统将宠物叫声识别为一个特征值文本,然后从宠物叫声识别系统的数据库中按照场景、动作、意图三个数据项进行匹配获取表达内容。这个系统采用了一个由宠物的主人辅助实施的宠物叫声识别学习模型,让系统通过一个闭环强化学习。本系统同时建立云端平台,将每个服务机器人上的宠物叫声识别系统数据与云端平台连接,让云平台的宠物叫声识别系统获得每个服务机器人上的宠物叫声识别交互数据并通过机器学习形成宠物叫声云识别方案,服务机器人每次对宠物叫声识别时,都将云识别方案获得的表达内容作为关联词条给出,供宠物主人参考,必要时将云识别获取的表达内容作为最终的表达内容。

技术研发人员:向忠宏
受保护的技术使用者:广州零号软件科技有限公司
技术研发日:2016.06.28
技术公布日:2018.01.05

相关知识

一种应用在服务机器人上的宠物叫声识别方法与系统与流程
一种宠物情绪识别方法及系统与流程
一种基于神经网络的宠物声音识别方法及系统与流程
一种宠物情绪识别方法及装置与流程
一种宠物吠叫的识别方法及装置与流程
一种基于深度学习的狗叫情感识别方法及装置与流程
一种基于宠物姿态的心情识别方法与流程
一种基于深度卷积神经网络的禽类动物行为识别方法与流程
一种基于神经网络的宠物声音识别方法及系统技术方案
一种宠物情绪识别方法及系统

网址: 一种应用在服务机器人上的宠物叫声识别方法与系统与流程 https://m.mcbbbk.com/newsview418663.html

所属分类:萌宠日常
上一篇: 为什么猫咪晚上老是叫(原因分析和
下一篇: 为什么萨摩耶喜欢叫?(探究萨摩耶