导读
2023年以ChatGPT为代表的大语言模型横空出世,它的出现标志着自然语言处理领域取得了重大突破。它在文本生成、对话系统和语言理解等方面展现出了强大的能力,为人工智能技术的发展开辟了新的可能性。同时,人工智能技术正在进入各种应用领域,在智慧城市、智能制造、智慧医疗、智慧农业等领域发挥着重要作用。
柴火创客2024年将依托母公司Seeed矽递科技在人工智能领域的创新硬件,与全球创客爱好者共建“模型仓”,通过“SenseCraft AI”平台可以让使用者快速部署应用体验人工智能技术!
本期介绍:模型案例:| 音频识别-鸟声识别模型
声学特征提取
声学特征提取是将语音信号转换为一系列数学特征的过程。这些特征包含了语音信号的重要信息,可以帮助识别和区分不同的语音单元。在语音识别中常用的声学特征提取方法包括梅尔频率倒谱系数(MFCC)、梅尔频率包络(MFE)等。
MFCC
MFCC识别麻雀声音识别转化的频谱图特征
梅尔频率倒谱系数(MFCC)是一种广泛应用的声学特征提取方法。它模拟了人耳对声音频率的感知特性。MFCC的主要步骤包括预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组和离散余弦变换(DCT)。其中,预加重通过对语音信号进行高频增强,可以提高 MFCC的提取效果。分帧将长时间的语音信号分割为短时间的帧,通常采用20-30毫秒的帧长。加窗是将每个帧进行加窗处理,常用的窗函数有汉明窗、汉宁窗等。FFT将每个帧从时域转换到频域得到每个频率的幅度谱。梅尔滤波器组将频域的振幅谱映射到梅尔频率的刻度上,以模拟人耳对声音频率的感知。最后,DCT将梅尔滤波器组的输出转换为倒谱系数,作为最终的声学特征。
MFE
MFE识别麻雀声音识别转化的频谱图特性
梅尔频率包络(MFE)是一种在声学特征提取中不那么常用的方法。它是基于梅尔频率滤波的一种变种,将梅尔滤波器组的输出作为特征。MFE的主要步骤与 MFCC类似,包括预加重、分、加窗FFT和梅尔滤波器组。然而,与MFCC不同的是,MFE直接使用了梅尔滤波器组的输出作为特征,而没有使用DCT进行变换。MFE在一些特定的语音识别任务中可能具有优势,但在一般情况下,MFCC仍然是使用最广泛的声学特征提取方法。
根据任务的需求,选择合适的声学特征提取方法非常重要。MFCC适用于大部分语音识别任务,并且具有良好的性能。而MFE则适用于一些特定的语音识别任务,可以作为MFCC的替代方法。在实际应用中,也可以根据具体任务的特点和需求,结合不同的声学特征提取方法,以获得更好的识别结果。
鸟声识别模型
鸟类在自然界中种类众多,对鸟类的研究、观测是很多环保爱好者的一项主要工作。在一个区域观察到鸟类本身是比较不容易的事情,但是鸟类的叫声却可以在很远的地方听到。所以,可以根据不同鸟类的叫声来识别鸟的种类、数量等等,为更好保护鸟类提供了重要手段。那么,基于神经网络识别的鸟类声纹识别设备,可以很好的帮助我们快速识别出不同的鸟类叫声。
该模型用于对麻雀和红领绿鹦鹉两种鸟类声音的识别,采用MFCC识别技术,生成TensorFlow Lite INT8格式文件。
应用场景
鸟类爱好者:对鸟类感兴趣的人可以利用鸟类声音识别技术来辨别野外的不同鸟类,增强对于鸟类的观察和了解。
生态学研究:生态学家可以使用鸟类声音识别技术来对野外的鸟类进行监测和研究,从而评估鸟类群落的多样性和生态系统的健康状况。
自然保护和环境监测:保护组织可以利用鸟类声音识别技术来监测鸟类种群的数量和分布情况,及时发现生态环境变化和进行保护工作。
识别模型Arduino 库文件下载
请在网盘中下载Arduino 库识别模型
https://share.weiyun.com/Qv9kDfLE
边缘端部署
可以将此模型直接部署在XIAO Esp32S3 Sense 开发板上,实现无网络环境下也能进行预测推理。
硬件清单
为了连接Oled显示屏,需要提前将XIAO ESP32S3(Sense)焊接上针脚,并按下图所示进行接线。
添加Arduino推理库文件
1、打开Arduino IDE软件,单击“工具” 》“导入库” 》“添加ZIP库”,如下图所示。
2、找到并选择鸟类声音识别库文件,单击“打开”按钮,如下图所示。
3、推理库文件添加成功后,打开语音识别Arduino程序,添加此库文件到程序的头部,如下图所示。
4、打开PSRAM选项,设置好开发板类型和端口号后,即可上传程序了,如下图所示。
5、查看输出预测结果程序部分,此处3个if语句就是输出预测结果到Oled显示屏上,(输出顺序:0代表NOISE 背景噪音、1代表parrot 鹦鹉、2代表sparrows 麻雀)。
6、程序上传成功后,oled显示屏可以输出预测结果和置信率,如下图所示。
下面是上传成功后的演示视频:
另,关于程序部署如果用到困难,建议先看一下此教程
具体部署教程参考如下:
https://wiki.seeedstudio.com/edgeimpulse/#fruit-identification-apples-bananas-grapes-arduino-library
XIAO ESP32S3 Sense 套装介绍
XIAO ESP32S3(Sense)
强大的 MCU 板:集成ESP32S3 32 位双核 Xtensa 处理器芯片,运行频率高达 240 MHz,安装多个开发端口,支持 Arduino/MicroPython高级功能:可拆卸OV2640相机传感器,分辨率为1600*1200,兼容OV5640相机传感器,集成附加数字麦克风超强内存,带来更多可能性:提供 8MB PSRAM 和 8MB 闪存,支持 SD 卡插槽,用于外部 32GB FAT 内存出色的射频性能:支持2.4GHz Wi-Fi和BLE双无线通信,连接U.FL天线时支持100m+远程通信拇指大小的紧凑型设计:21 x 17.5mm,采用XIAO的经典外形,适用于可穿戴设备等空间有限的项目来自 SenseCraft Al 的用于无代码部署的预训练 Al 模型。
写在最后
SenseCraft-AI平台的模型仓数量还很少,但是好消息是它支持自定义模型上传并输出推理结果,平台会逐渐增加模型仓的数量,敬请关注!
相关知识
(行业分析)战略管理报告基于五力模型对宠物用品行业分析
虚拟宠物进化与行为模型研究
有趣的FLUX模型,创意无限等你来玩!
快速部署模型和训练模型
宠物营销案例
幼儿园宠物教育案例
学习的高效公式:思维模型+方法论+刻意练习 – 人人都是产品经理,
幼儿园宠物养成案例
C4D模型
幼儿园养宠物案例分析
网址: 模型案例: https://m.mcbbbk.com/newsview189522.html
上一篇: 如何规范我国农户家禽的饲养方式、 |
下一篇: 澳盾鸟类声纹识别系统怎么安装-澳 |