1.本发明涉及自然语言处理技术领域,尤其涉及一种多轮对话方法及装置。
背景技术:
2.目前,在各行各业的数字化转型过程中,自然语言处理技术已经成为一项重要的任务。在金融领域,该技术可以为证券投资提供各种分析数据。在法律领域,可以帮助进行案例搜索、判决预测、法律文书自动生成、法律文本翻译、智能问答等等。在医疗健康领域,可以帮助医生快速准确地找到各种疑难病症最近的研究进展,使得病人最快地享受医学技术进步的成果。根据应用领域不同,对话系统主要分为开放域闲聊模式的对话系统和以完成特定任务为目标的任务型对话系统。在能源电商领域,智能客服机器人的应用越来越广泛,流畅的人机对话对解决客户的问题和维护客户的情绪十分重要,这要求机器人必须能够识别何时应当保持倾听,何时应当作出回复。
3.而已有的基于然语言处理的多轮对话相关研究工作存在着使用单轮回复生成模型进行多轮对话,没有考虑未来对话走向的问题,导致回复不准确。
技术实现要素:
4.有鉴于此,本发明提供了一种多轮对话方法及装置,用于解决已有的基于然语言处理的多轮对话相关研究工作存在着使用单轮回复生成模型进行多轮对话,没有考虑未来对话走向的问题,导致回复不准确的问题,具体方案如下:
5.一种多轮对话方法,包括:
6.接收初始状态向量,其中,所述初始状态向量基于用户的输入语音转化得到;
7.将所述初始状态向量传递给强化学习智能体得到初始动作,所述初始动作至少为一个;
8.将每个初始动作传递给环境模型,得到状态向量和强化信号,其中,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述强化信号用于表征对应初始动的评价结果;
9.将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句。
10.上述的方法,可选的,接收初始状态向量,包括:
11.在检测到当前用户进行语音交互的情况下,获取所述当前用户的输入语音;
12.将所述输入语音基于语言理解转换为初始输入向量。
13.上述的方法,可选的,将所述初始动作传递给环境模型,得到状态向量和强化信号,包括:
14.基于预设的自作用函数确定状态向量;
15.基于预设的对话策略对所述初始动作进行评价得到强化信息,其中,所述强化信号包括:正向强化信号和负向强化信号。
16.上述的方法,可选的,将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句,包括:
17.将所述状态向量和每个强化信号传递给强化学习智能体,得到各个当前动作;
18.对所述各个当前动作进行评分,选取评分结果最高的当前动作作为所述目标动作。
19.上述的方法,可选的,对所述各个当前动作进行评分,包括:
20.针对每个当前动作,判断其对应的状态是否为终止状态;
21.若是,其对应的强化信号作为评分结果;
22.若否,基于预设评分公式确定评分结果,其中,所述预设评分公式为y
j
=r
j
+γmax a
j
q(s
j+1
,a
j
;θ),其中,y:评分结果,j:当前动作编号,γ:奖励衰减因子,a:当前动作,θ:调节参数。
23.一种多轮对话装置,包括:
24.接收模块,用于接收初始状态向量,其中,所述初始状态向量基于用户的输入语音转化得到;
25.第一确定模块,用于将所述初始状态向量传递给强化学习智能体得到初始动作,所述初始动作至少为一个;
26.第二确定模块,用于将每个初始动作传递给环境模型,得到状态向量和强化信号,其中,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述强化信号用于表征对应初始动的评价结果;
27.确定和转化模块,用于将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句。
28.上述的装置,可选的,所述接收模块包括:
29.获取单元,用于在检测到当前用户进行语音交互的情况下,获取所述当前用户的输入语音;
30.转化单元,用于将所述输入语音基于语言理解转换为初始输入向量。
31.上述的装置,可选的,所述第一确定模块包括:
32.第一确定单元,用于基于预设的自作用函数确定状态向量;
33.评价单元,用于基于预设的对话策略对所述初始动作进行评价得到强化信息,其中,所述强化信号包括:正向强化信号和负向强化信号。
34.上述的装置,可选的,所述第二确定模块包括:
35.第二确定单元,用于将所述状态向量和每个强化信号传递给强化学习智能体,得到各个当前动作;
36.评分和选取单元,用于对所述各个当前动作进行评分,选取评分结果最高的当前动作作为所述目标动作。
37.上述的装置,可选的,所述评分和选取单元包括:
38.判断子单元,用于针对每个当前动作,判断其对应的状态是否为终止状态;
39.第一确定子单元,用于若是,其对应的强化信号作为评分结果;
40.第二确定子单元,用于若否,基于预设评分公式确定评分结果,其中,所述预设评分公式为y
j
=r
j
+γmax a
j
q(s
j+1
,a
j
;θ),其中,y:评分结果,j:当前动作编号,γ:奖励衰减
因子,a:当前动作,θ:调节参数。
41.与现有技术相比,本发明包括以下优点:
42.本发明公开了一种多轮对话方法及装置,包括:接收初始状态向量,所述初始状态向量基于用户的输入语音转化得到;将所述初始状态向量传递给强化学习智能体得到初始动作,所述初始动作至少为一个;将每个初始动作传递给环境模型,得到状态向量和强化信号,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述强化信号用于表征对应初始动的评价结果;将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句。上述过程,基于初始状态向量确定了至少一个初始动作,并对各个初始动作进行评价,基于评价结果确定目标动作,目标动作是在多个初始动作中选取的,保证了回复的准确性。
43.当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
44.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
45.图1为本技术实施例公开的一种多轮对话方法流程图;
46.图2为本技术实施例公开的一种多轮对话方法工作原理图;
47.图3为本技术实施例公开的一种多轮对话装置结构框图。
具体实施方式
48.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
49.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
50.本发明公开了一种对轮对话方法及装置,应用与人机对话过程中,目前的神经网络对话生成模型在人机对话过程中存在着容易产生万能回复、很快陷入死循环的问题;而已有的多轮对话相关研究工作存在着使用单轮回复生成模型进行多轮对话,没有考虑未来对话走向的问题,导致回复不准确,为了解决上述问题,本发明实施例中提供了一种多轮对话方法,所述方法应用于人机对话过程的机器端,所述方法的执行流程如图1所示,包括步骤:
51.s101、接收初始状态向量,其中,所述初始状态向量基于用户的输入语音转化得到;
52.本发明实施例中,在检测到当前用户进行语音交互的情况下,获取所述当前用户的输入语音,将所述输入语音基于语言理解slu(spoken language understanding)转换为初始状态向量,其中,所述slu的处理过程如下:把用户的自然语言表述的文本处理成预先设计好的机器能够理解的初始状态向量,所述初始状态向量通常为意图和槽值对。如用户输入“我想订一个明天的位子”,则slu的输出应该是intent=订餐,slot=date:明天,优选的,可以对槽值对进行标准化处理。这个部分意图识别可作为分类任务或者检索任务,而槽值对提取一般可用作为ner问题。
53.s102、将所述初始状态向量传递给强化学习智能体得到初始动作,所述初始动作至少为一个;
54.本发明实施例中,所述初始状态向量用于表征所述强化学习智能体所处于的环境信息,包含了所述强化学习智能体用于初始动作选择的所有信息。将所述初始状态向量传递给强化学习智能体得到初始动作,其中,所述强化学习智能体用于将状态向量转化为动作,本发明实施例中,在初始状态向量转化为初始动作的过程中,基于所述强化学习智能体可以得到至少一个初始动作,其中,所述强化学习智能体是基于历史人机对话数据进行训练得到的,所述强化学习智能体采用强化学习算法dqn(deep q
‑
network)进行迭代得到。
55.s103、将每个初始动作传递给环境模型,得到状态向量和强化信号,其中,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述强化信号用于表征对应初始动的评价结果;
56.本发明实施例中,将每个初始动作传递给环境模型,得到每个初始动作对应的状态向量和强化信号,其中,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述环境模型会接收所述强化学习智能体执行的一系列的动作,并且对这一系列的动作的好坏进行评价,并转换成一种可量化的(强化信号)reward反馈给所述强化学习智能体,而不会告诉所述强化学习智能体应该如何去学习动作。所述强化信号一个可量化的标量反馈信号,用于评价所述强化学习智能体在某一个时间步所做action的好坏。所述环境模型的具体执行过程如下:基于预设的自作用函数确定状态向量,将该状态向量同时反馈给所述环境模型和所述强化学习智能体,其中,所述预设的自作用函数为受环境影响发生的改变,所述自作用函数为
57.s'=f(s)
ꢀꢀꢀ
(1)
58.其中。f(
·
)为自作用函数。
59.基于预设的对话策略对所述初始动作进行评价得到强化信息,其中,所述强化信号包括:正向强化信号和负向强化信号,所述正向强化信号表征当前动作有利于多轮对话的进行,所述负向强化信号表征当前动作不利于多轮会话的进行,其中,所述预设的对话策略可以基于经验或者具体情况进行设定,本发明实施例中,对所述预设的对话策略不进行具体限定。
60.s104、将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句。
61.本发明实施例中,将所述状态向量和每个强化信号传递给强化学习智能体,得到各个当前动作,对所述各个当前动作进行评分,针对每个当前动作,判断其对应的状态是否为终止状态,其中,是否为终止状态可以针对其对应的状态标识进行确定,例如,状态标识
为0,则判定与所述当前动作对应的当前状态为终止状态,反之,若所述状态标识为1,则判定与所述当前动作对应的当前状态为非终止状态,在与所述当前动作对应的当前状态为终止状态情况下,其对应的强化信号作为评分结果;在与所述当前动作对应的当前状态为非终止状态情况下。若否,基于预设评分公式确定评分结果,其中,所述预设评分公式为
62.y
j
=r
j
+γmax a
j
q(s
j+1
,a
j
;θ)
ꢀꢀꢀ
(2)
63.其中,y:评分结果,j:当前动作编号,γ:奖励衰减因子,a:当前动作,θ:调节参数。
64.选取评分结果最高的当前动作作为所述目标动作。进一步的,基于自然语言生成nlg(natural language generation)将所述目标动作转化为回复语句,其中,所述回复语句为自然语言文本。
65.本发明公开了一种多轮对话方法,包括:接收初始状态向量,所述初始状态向量基于用户的输入语音转化得到;将所述初始状态向量传递给强化学习智能体得到初始动作,所述初始动作至少为一个;将每个初始动作传递给环境模型,得到状态向量和强化信号,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述强化信号用于表征对应初始动的评价结果;将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句。上述过程,基于初始状态向量确定了至少一个初始动作,并对各个初始动作进行评价,基于评价结果确定目标动作,目标动作是在多个初始动作中选取的,保证了回复的准确性。
66.本发明实施例中,基于上述的处理过程,还可以进行对话策略学习dpl(dialog policy learning)和对话状态跟踪dst(dialog status tracking),其中,所述对话策略学习用于学习根据当前对话状态做出下一步的反应。所述对话状态跟踪用于根据对话历史管理每一轮对话的输入,并且预测当前对话的状态。比如使用规则的方法:有哪些槽已经填充,哪些未填充等、哪些已经问过usr、问过多少次等。
67.本发明实施例中,基于上述的处理过程,所述多轮对话方法执行的工作原理如图2所示,强化学习系统由强化学习智能体(agent)、状态(state)s、奖赏(reward)r(也称为强化信号)、动作(action)和环境模型(environment)五部分组成,其中agent就是根据环境提供的reward作为反馈,学习一系列的环境状态(state)到动作(action)的映射,动作选择的原则是最大化未来累积的reward的概率。选择的动作不仅影响当前时刻的reward,还会影响下一时刻甚至未来的reward,因此,agent在学习过程中的基本规则是:如果某个动作(action)带来了环境的正回报(reward),那么这一动作会被加强,反之则会逐渐削弱,类似于物理学中条件反射原理。强化学习的主体是agent和环境environment。agent为了适应环境,通过具体的优化算法做出的一系列的动作,使最终的奖励最高,同时在此过程中更新特定的参数。强化学习具体的工作步骤如下:(a)智能体从环境中获取一个状态st;(b)智能体根据状态st根据具体优化算法确定一个动作at;(c)受到at的影响,环境发生变化,转换到新的状态st+1,环境反馈给智能体一个奖励(正向为奖励,负向则为惩罚)。
68.进一步的,所述强化学习智能体中包括:最优值函数和最优策略定义,其中,所述最优值函数为以状态s为自变量定义状态值函数v(s)和动作值函数q(s,a),有最优理论及函数性质可知两个函数都存在最优值函数v
*
和q
*
,是的两个值函数达到最大,即
69.v
*
(s)=maxπ(v(s))
ꢀꢀꢀ
(3)
70.q
*
(s,a)maxπ(q(s,a))
ꢀꢀꢀ
(4)
71.所述最优策略定义:最优值函数对应的策略为最优策略,记为:π
*
,对于任意策略π,π
*
≥π,此时
72.开放域多轮对话的一个重要目标就是尽可能聊得更久。开放域多轮对话中每一轮回复的选择,不仅需要考虑是否能够有效回复当前输入,更需要考虑是否有利于对话过程的持续进行。我们通过引入深度强化学习算法dqn,以最大化未来奖励的方式学习一个对话策略,通过这个对话策略指导多轮对话过程中每一轮的回复选择。
73.dqn对当前对话状态下每一句回复进行评估,每次选择具有最大累计价值而不仅仅是生成概率最高的句子,利用强化学习最大化未来累计奖励的特点,建模多轮对话的过程,使得当前回复有利于对话过程的持续进行,并缓解多轮对话过程中容易出现的生成大量万能回复以及很快陷入死循环的问题。
74.为了使对话系统生成更符合用户问题的回复,更好地办法就是让对话系统自动生成一句回复。随着深度学习的蓬勃发展,基于生成的对话系统也在快速发展。基于生成的对话系统可以生成一个新的句子作为回复,从而更具有灵活性。现有技术中采用seq2seq模式,用两个递归神经网络(rnn)来实现编码器和解码器。编码器用一个或几个词嵌入向量去获得用户输入问题的语义,解码器用于对查询词嵌入向量的解码。为了解决rnn中的梯度爆炸和梯度消失问题,hochreiter提出lstm(long short term memory)cho提出gru(gated recurrent units)可以进一步增强rnn的能力从而编码更长语句。基于生成式的对话系统的优点在于可以产生灵活而且有针对性的回答。但是生成式对话系统也面临着很多问题。这种方式虽然训练简单,但受限于背后深度学习技术本身的特性,这会使得最终模型缺乏足够的可控性和可解释性。最后,由于训练数据源噪音和自然语言本身的特性导致生成式对话的鲁棒性欠佳。因此,本发明实施例中提供了一种新的实现方式,将检索式模型和生成式模型进行了融合,然后通过一个打分模块,针对用户所提出的问题,对检索模块得到的回复和生成模块的回复进行打分,选择一个得分较高的句子作为最终输出。在打分模块中为了弥补cnn在分类过程中特征之间忽略空间关系的问题,使用基于动态路由算法的胶囊网络确定了那些底层特征将被传输到高层特征,并使用胶囊的长度代表对应关系类别的概率。模型充分汲取了检索式对话系统和生成式对话系统的优点,并且通过打分模块解决两种模型各自存在的问题,现有技术和本发明的对比如表1所示,
75.表1
76.77.在多轮对话过程中应用强化学习方法需要向量化的特征表示,同时因为句子是变长和离散的,不利于进一步处理,所以我们借鉴自编码的思想,使用自编码器来获得关于句子的固定维度向量表示。
78.seq2seq模型基于编码器
‑
解码器结构,应用于对话生成任务时,输入通过编码器编码为一个特征向量,再由解码器根据特征向量解码得到回复。这一模型基于极大似然估计(maximum likelihood estimate,mle),最大化与输入对应的回复的生成概率。将seq2seq模型应用在单轮的对话生成上,取得了很好的效果。开放域多轮对话中每一轮回复的选择,不仅需要考虑是否能够有效回复当前输入,更需要考虑是否有利于对话过程的持续进行。更好的建模多轮对话过程,引导现有的seq2seq模型有效进行多轮对话,需要从整个对话过程的角度引入一种对话策略。
79.多轮对话是为了某种目的设计的用以与人类对话的机器,这种目的可以是为了特定的任务,任务型的对话主要为了一个特定的目标进行对话,比如常见的订飞机票、订餐等。对于任务型对话工业界主要实现方案还是为pipeline的方式,即按照slu、dst、dpl和nlg的方式组织整个对话系统,在学术界上end
‑
to
‑
end的方式也越来越受到关注,与pipeline不同,end
‑
to
‑
end模型使用一个模块,并与结构化的外部数据库交互。任务型对话的主要目标是完成一个任务如订餐、订票等,在这种场景下仅仅给用户一个回答是远远不够的,还需要真正的理解一个用户的意图,以及这个意图相关的信息,如果一个用户想订餐,那么需要知道用户的就餐具体日期、用餐人数等等,所以就需要进行槽提取等等,同时还需要关注当前的获取的信息量以及未获取的信息等。
80.dqn(deepq
‑
network)是强化学习算法q
‑
learning的深度学习近似版本。其核心思想是用一个深度神经网络来作为对价值的估计媒介,其参数更新通过对式(5)进行随机梯度下降来完成,其中,s:状态,a:动作,θ:调节参数,j:当前动作编号,q:通过深度价值网络对状态
‑
动作对进行估值。y:评分结果。
81.loss=(y
j
‑
q(s
j
,a
j
;θ))2ꢀꢀꢀ
(5)
82.将dqn应用于对话策略的学习过程中,使用独立的深度神经网络对每一句候选回复的未来收益进行评估,从而得到一个有利于多轮对话持续进行的对话策略。而实验结果也表明,通过dqn方法得到的多轮对话策略有效提高了多轮对话的多样性、平均轮数和对话质量。
83.基于上述的一种多轮对话方法,本发明实施例中提供了一种多轮会话装置,所述多轮会话装置的结构框图如图3所示,包括:
84.接收模块201、第一确定模块202、第二确定模块203和确定和转化模块204。
85.其中,
86.所述接收模块201,用于接收初始状态向量,其中,所述初始状态向量基于用户的输入语音转化得到;
87.所述第一确定模块202,用于将所述初始状态向量传递给强化学习智能体得到初始动作,所述初始动作至少为一个;
88.所述第二确定模块203,用于将每个初始动作传递给环境模型,得到状态向量和强化信号,其中,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述强化信号用于表征对应初始动的评价结果;
89.所述确定和转化模块204,用于将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句。
90.本发明实施例中,所述接收模块201包括:
91.获取单元205和转化单元206。
92.其中,
93.所述获取单元205,用于在检测到当前用户进行语音交互的情况下,获取所述当前用户的输入语音;
94.所述转化单元206,用于将所述输入语音基于语言理解转换为初始输入向量。
95.本发明实施例中,所述第一确定模块202包括:
96.第一确定单元207和评价单元208。
97.其中,
98.所述第一确定单元207,用于基于预设的自作用函数确定状态向量;
99.所述评价单元208,用于基于预设的对话策略对所述初始动作进行评价得到强化信息,其中,所述强化信号包括:正向强化信号和负向强化信号。
100.本发明实施例中,所述第二确定模块203包括:
101.第二确定单元209和评分和选取单元210。
102.其中,
103.所述第二确定单元209,用于将所述状态向量和每个强化信号传递给强化学习智能体,得到各个当前动作;
104.所述评分和选取单元210,用于对所述各个当前动作进行评分,选取评分结果最高的当前动作作为所述目标动作。
105.本发明实施例中,所述评分和选取单元210包括:
106.判断子单元211、第一确定子单元212和第二确定子单元213。
107.其中,
108.所述判断子单元211,用于针对每个当前动作,判断其对应的状态是否为终止状态;
109.所述第一确定子单元212,用于若是,其对应的强化信号作为评分结果;
110.所述第二确定子单元213,用于若否,基于预设评分公式确定评分结果,其中,所述预设评分公式为y
j
=r
j
+γmax a
j
q(s
j+1
,a
j
;θ),其中,y:评分结果,j:当前动作编号,γ:奖励衰减因子,a:当前动作,θ:调节参数。
111.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
112.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
113.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
114.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
115.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
116.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
117.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd
‑
rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
118.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
119.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
120.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种多轮对话方法,其特征在于,包括:接收初始状态向量,其中,所述初始状态向量基于用户的输入语音转化得到;将所述初始状态向量传递给强化学习智能体得到初始动作,所述初始动作至少为一个;将每个初始动作传递给环境模型,得到状态向量和强化信号,其中,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述强化信号用于表征对应初始动的评价结果;将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句。2.根据权利要求1所述的方法,其特征在于,接收初始状态向量,包括:在检测到当前用户进行语音交互的情况下,获取所述当前用户的输入语音;将所述输入语音基于语言理解转换为初始输入向量。3.根据权利要求1所述的方法,其特征在于,将所述初始动作传递给环境模型,得到状态向量和强化信号,包括:基于预设的自作用函数确定状态向量;基于预设的对话策略对所述初始动作进行评价得到强化信息,其中,所述强化信号包括:正向强化信号和负向强化信号。4.根据权利要求1所述的方法,其特征在于,将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句,包括:将所述状态向量和每个强化信号传递给强化学习智能体,得到各个当前动作;对所述各个当前动作进行评分,选取评分结果最高的当前动作作为所述目标动作。5.根据权利要求4所述的方法,其特征在于,对所述各个当前动作进行评分,包括:针对每个当前动作,判断其对应的状态是否为终止状态;若是,其对应的强化信号作为评分结果;若否,基于预设评分公式确定评分结果,其中,所述预设评分公式为y
j
=r
j
+γmax a
j
q(s
j+1
,a
j
;θ),其中,y:评分结果,j:当前动作编号,γ:奖励衰减因子,a:当前动作,θ:调节参数。6.一种多轮对话装置,其特征在于,包括:接收模块,用于接收初始状态向量,其中,所述初始状态向量基于用户的输入语音转化得到;第一确定模块,用于将所述初始状态向量传递给强化学习智能体得到初始动作,所述初始动作至少为一个;第二确定模块,用于将每个初始动作传递给环境模型,得到状态向量和强化信号,其中,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述强化信号用于表征对应初始动的评价结果;确定和转化模块,用于将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句。7.根据权利要求6所述的装置,其特征在于,所述接收模块包括:获取单元,用于在检测到当前用户进行语音交互的情况下,获取所述当前用户的输入
语音;转化单元,用于将所述输入语音基于语言理解转换为初始输入向量。8.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括:第一确定单元,用于基于预设的自作用函数确定状态向量;评价单元,用于基于预设的对话策略对所述初始动作进行评价得到强化信息,其中,所述强化信号包括:正向强化信号和负向强化信号。9.根据权利要求6所述的装置,其特征在于,所述第二确定模块包括:第二确定单元,用于将所述状态向量和每个强化信号传递给强化学习智能体,得到各个当前动作;评分和选取单元,用于对所述各个当前动作进行评分,选取评分结果最高的当前动作作为所述目标动作。10.根据权利要求9所述的装置,其特征在于,所述评分和选取单元包括:判断子单元,用于针对每个当前动作,判断其对应的状态是否为终止状态;第一确定子单元,用于若是,其对应的强化信号作为评分结果;第二确定子单元,用于若否,基于预设评分公式确定评分结果,其中,所述预设评分公式为y
j
=r
j
+γmax a
j
q(s
j+1
,a
j
;θ),其中,y:评分结果,j:当前动作编号,γ:奖励衰减因子,a:当前动作,θ:调节参数。
技术总结
本发明公开了一种多轮对话方法及装置,包括:接收初始状态向量,所述初始状态向量基于用户的输入语音转化得到;将所述初始状态向量传递给强化学习智能体得到初始动作,所述初始动作至少为一个;将每个初始动作传递给环境模型,得到状态向量和强化信号,所述环境模型用于对初始状态向量进行调整和对每个初始动作进行评价,所述强化信号用于表征对应初始动的评价结果;将所述状态向量和所述强化信号传递给所述强化学习智能体,得到目标动作,将所述目标动作转化为回复语句。上述过程,基于初始状态向量确定了至少一个初始动作,并对各个初始动作进行评价,基于评价结果确定目标动作,目标动作是在多个初始动作中选取的,保证了回复的准确性。复的准确性。复的准确性。
技术研发人员:田晓芸 孙喜民 周晶 郑斌 刘丹 李晓明
受保护的技术使用者:国网电商科技有限公司
技术研发日:2021.09.09
技术公布日:2021/11/30
相关知识
一种宠物视频拍摄装置、视频生成方法、装置系统与流程
宠物行为的纠正方法及装置与流程
一种宠物情绪识别方法及装置与流程
宠物状态监测方法、装置及设备与流程
一种公共场所中的异常宠物行为的检测方法、装置及系统与流程
车内宠物服务方法、装置、车辆及存储介质与流程
基于摄像装置的宠物行为纠正方法及宠物行为纠正系统与流程
一种宠物行为识别方法、装置和可读存储介质与流程
一种基于位置信息的动物运动行为判别方法及装置
宠物玩具的工作控制方法和装置与流程
网址: 一种多轮对话方法及装置与流程 https://m.mcbbbk.com/newsview120766.html
上一篇: 马上开学啦!孩子不愿意去幼儿园, |
下一篇: 孩子经常啃指甲,意味着什么? |