首页 > 分享 > 准确率高的可怕：利用 AI 解读狗的叫声

准确率高的可怕：利用 AI 解读狗的叫声

研究人员正致力于利用AI技术来解读狗的叫声，以便分辨它们是在玩耍还是在生气。此外，他们还探索使用AI来识别狗的年龄、性别和品种。这一突破性的研究将为了解宠物行为打开新的大门。

密歇根大学的研究团队与墨西哥普埃布拉的国家天体物理、光学和电子研究所（INAOE）合作，进行了这项开创性的研究。令人惊讶的是，最初用于训练人类语音识别的AI模型，现在被发现可以作为训练动物交流模型的基础。这一发现不仅表明AI在动物行为研究中的巨大潜力，还预示着未来在宠物护理和训练方面的应用前景。

研究人员表示，狗的叫声包含丰富的信息，通过AI技术，我们可以更加准确地理解它们的情感和需求。这将帮助宠物主人更好地照顾他们的宠物，建立更深层次的情感连接。

密歇根大学人工智能实验室的负责人Rada Mihalcea表示，人工智能在理解语音的微妙之处方面取得了显著进展，能够区分音调、声调和口音的细微差别。这些研究成果为理解狗的叫声提供了坚实的基础。

然而，开发这种分析动物发声的AI模型面临的主要挑战之一是缺乏公开可用的数据。尽管有许多资源和机会来记录人类的语音，但收集动物的数据却更加困难。为了克服这一障碍，研究团队采用了类似于采集人类语音数据的方法，收集了74只不同品种、年龄和性别的狗在各种情况下的吠叫、咆哮和呜呜声。

这些收集到的声音数据被输入用于分析人类语音的机器模型中，结果显示，该模型能够很好地理解狗之间的交流，并且在各种测试中的准确率达到了70%。

Rada Mihalcea解释说：“人类语音中的声音和模式可以作为分析和理解其他声音（如动物发声）的声学模式的基础。”团队的其他研究人员也指出，更好地了解动物发出各种声音的细微差别，可以帮助人类更准确地解释和回应它们的情感和身体需求。

研究团队选择了一个名为Wav2Vec2的语音表示模型，这个模型最初是在人类语音数据上进行训练的。这是首次利用为人类语音优化的技术来解码动物交流。研究结果显示，人类语音中的声音和模式可以作为分析和理解其他声音（如动物发声）声学模式的基础，为动物交流的研究提供了新的方向和可能性。

Wav2Vec2是一款语音转文字模型，由FeatureEncoder和Encoder两个模块组成，前者负责将一维的语音波形处理成若干个语音单元的向量表示；后者负责抽取并融合这些语音单元的上下文信息，最终输出这些语音单元的embedding。

使用Hugging Face Transformer将音频文件转换成文本，附有几行简单的代码。

读取音频文件：

导入模型：

输出结果：

这一研究不仅展示了AI在动物行为研究中的巨大潜力，也为未来在宠物护理和训练方面的应用前景打开了新的大门。

关注我～，带你学习AI，了解AI

分享热点排名

阿拉伯灵缇

玛尔济斯

分享分类导航

萌宠日常

宠物饲养指南

宠物营养食谱