首页 > 分享 > 基于改进YOLOv5

基于改进YOLOv5

《基于改进YOLOv5-L的宠物犬视频目标检测方法及系统.pdf》由会员分享,可在线阅读,更多相关《基于改进YOLOv5-L的宠物犬视频目标检测方法及系统.pdf(10页完成版)》请在专利查询网上搜索。

1、(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211151017.8 (22)申请日 2022.09.21 (71)申请人 杭州云象网络技术有限公司 地址 310000 浙江省杭州市余杭区仓前街 道余杭塘路海智中心7号楼 (72)发明人 黄步添汪志刚刘振广焦颖颖 许曼迪 (74)专利代理机构 杭州五洲普华专利代理事务 所(特殊普通合伙) 33260 专利代理师 徐晶晶 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/77(2022.01) G06V 10/764。

2、(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于改进YOLOv5-L的宠物犬视频目标检测 方法及系统 (57)摘要 本发明提出了一种基于改进YOLOv5L的宠 物犬视频目标检测方法, 包括如下步骤: 搜集宠 物犬图像数据, 用于构建初始训练集; 搜集包含 宠物犬的视频数据, 用于构建测试集; 对所述测 试集中的视频进行帧提取, 保存得到的帧图像; 对所述初始训练集进行预处理, 得到最终训练 集; 改进YOLOv5L模型, 具体如下: 搭建BackBone 网络, 改进Pred模块, 在BackBone网络后加入SK 注意力机。

3、制; 设置训练参数, 对改进后的模型进 行训练, 保存最佳权重参数文件; 将权重参数文 件放入检测器中, 对测试集中视频进行检测, 保 存所有检测到宠物犬的视频帧, 使用AP指标对检 测结果进行评估。 本发明减少了模型的参数量, 提高了检测模糊、 遮挡的视频帧图像的精确度。 权利要求书2页 说明书5页 附图2页 CN 115588150 A 2023.01.10 CN 115588150 A 1.一种基于改进YOLOv5L的宠物犬视频目标检测方法, 其特征在于, 包括如下步骤: 基于获取到的包含宠物犬图像数据和获取到的包含宠物犬的视频数据分别构建初始 训练集测试集; 对所述包含宠物犬的视频进行。

4、帧提取, 得到帧图像; 对所述初始训练集进行预处理, 得到最终训练集; 改进YOLOv5L模型并进行训练, 具体为: 搭建BackBone网络, 改进Pred模块, 在 BackBone网络后加入SK注意力机制; 设置训练参数, 对改进后的YOLOv5L模型进行训练, 保 存最佳权重参数文件; 将所述最佳权重参数文件放入检测器中, 对所述最终测试集中视频 进行检测, 保存所有检测到宠物犬的视频帧, 使用AP指标对检测结果进行评估, 进而得到最 佳改进YOLOv5L模型; 将待测宠物犬视频输入最佳YOLOv5L模型, 得到相应的检测结果。 2.根据权利要求1所述基于改进YOLOv5L的宠物犬视频。

5、目标检测方法, 其特征在于, 所 述构建初始训练集和测试集, 包括以下步骤: 基于获取到的包含宠物犬图像数据, 得到所有已标注的宠物犬图片; 带有不同背景噪声的宠物犬图片, 使用LabelImg标注工具对所有图片进行标注, 得到 已标注的宠物犬图片, 其中所述不同背景噪声至少包括草地、 雪山、 屋内及街道中的一种或 几种; 将所述已标注的宠物犬图片合并为初始训练集; 在视频网站搜集人与宠物犬互动的视频, 使用4KVideo工具进行下载保存; 裁剪保存的视频, 使原视频拆分为3s10s的短视频, 保存所有短视频得到测试集。 3.根据权利要求1所述基于改进YOLOv5L的宠物犬视频目标检测方法, 。

6、其特征在于, 所 述对测试集中的视频进行帧提取和对初始训练集进行预处理, 包括以下步骤: 通过extractor算法对测试集中视频进行逐帧提取, 保存所有视频帧图像; 从所述视频帧图像中选取部分宠物犬形态异常和运动模糊的图片并进行标注, 得到标 注图片; 随机选取若干所述标注图片进行左右平移、 多图叠加及比例缩放, 得到多种形态特征 的已处理标注图片; 将所述已处理标注图片和所述初始训练集进行合并得到最终训练集。 4.根据权利要求1所述基于改进YOLOv5L的宠物犬视频目标检测方法, 其特征在于, 所 述搭建BackBone网络包括下采样模块、 CBR模块、 Res模块、 CSP_X模块; 所。

7、述下采样模块; 采用split算法将640像素*640像素RGB图像切分为12通道特征图, 通 过卷积得到64通道特征图; 所述CBR模块; 包括3*3卷积层、 正则化层及Relu函数; 所述Res模块; 包括两个CBR模块和空层残差并且相互连接; 所述CSP_X模块; 用于提取特征, 包括相互连接的CBR模块、 X个Res模块及空层残差, 其 中, X表示个数。 5.根据权利要求1所述基于改进YOLOv5L的宠物犬视频目标检测方法, 其特征在于, 所 述改进Pred模块, 包括: 在输出层前面加入flatten算法, 将特征图一维化, 将输出层中的卷 积层替换为全连接层。 权利要求书 1/2。

8、 页 2 CN 115588150 A 2 6.根据权利要求1所述基于改进YOLOv5L的宠物犬视频目标检测方法, 其特征在于, 所 述SK注意力机制包括split单元、 fuse单元及select单元; split单元通过三种尺寸的卷积 核对原特征图进行卷积; fuse单元计算每个卷积核的权重, 将三个分支的特征图按元素求 和, 通过全局平均池化生成通道统计信息, 得到新的特征维度为C*1; select单元利用 softmax计算每个卷积核的权重, 融合所有卷积核形成最终输出的卷积核。 7.根据权利要求1所述基于改进YOLOv5L的宠物犬视频目标检测方法, 其特征在于, 所 述改进YOLO。

9、v5L模型并进行训练, 还包括以下步骤: 修改YAML配置文件中的number class更改检测类别; 设定NMS机制用于保留预测最好的预测框, 将其余预测框的置信度降为0; 设定损失函数为DIOU_Loss; 设置训练超参数, 设置训练轮数为300, 优化器为改进SGD, 初始学习率为0.01, 学习率 动量为0.95, 训练批次为64; 训练集进入模型进行训练, 经过多次迭代, 得到最佳权重参数。 8.根据权利要求1所述基于改进YOLOv5L的宠物犬视频目标检测方法, 其特征在于, 将 最佳权重参数放入检测器中, 加入缩放算法固定传入的视频帧大小为640像素*640像素, 放 入测试集视。

10、频进行检测, 保存所有检测到宠物犬的视频帧; 采用AP指标评估模型的精确度, AP指标计算方式为: AP检测到的出现宠物犬的视频帧数/视频中所有出现宠物犬的视频 帧数。 9.一种基于改进YOLOv5L的宠物犬视频目标检测系统, 其特征在于, 包括数据获取模 块、 图像提取模块、 预处理模块、 模型改进训练模块及结果检测模块; 所述数据获取模块, 基于获取到的包含宠物犬图像数据和获取到的包含宠物犬的视频 数据分别构建初始训练集测试集; 所述图像提取模块, 对所述包含宠物犬的视频进行帧提取, 得到帧图像; 所述预处理模块, 对所述初始训练集进行预处理, 得到最终训练集; 所述模型改进训练模块, 用。

11、于改进YOLOv5L模型并进行训练, 具体为: 搭建BackBone网 络, 改进Pred模块, 在BackBone网络后加入SK注意力机制; 设置训练参数, 对改进后的 YOLOv5L模型进行训练, 保存最佳权重参数文件; 将所述最佳权重参数文件放入检测器中, 对所述最终测试集中视频进行检测, 保存所有检测到宠物犬的视频帧, 使用AP指标对检测 结果进行评估, 进而得到最佳改进YOLOv5L模型; 结果检测模块, 用于将待测宠物犬视频输入最佳YOLOv5L模型, 得到相应的检测结果。 权利要求书 2/2 页 3 CN 115588150 A 3 基于改进YOLOv5L的宠物犬视频目标检测方法。

12、及系统 技术领域 0001 本发明涉及视频目标检测技术领域, 更具体地, 涉及一种基于改进YOLOv5L的宠 物犬视频目标检测方法及系统。 背景技术 0002 当前社会, 宠物犬已经是很多人共同生活的伙伴, 人们为了消除孤寂或出于娱乐 目的而豢养它们, 宠物犬是一种灵性、 聪明的动物, 它们在经过人类驯化以后, 动作敏捷, 善 解人意, 忠诚主人, 同时理解宠物犬的动作行为也是一项重要的研究工作。 0003 目标检测是目前计算机视觉领域的热点, 传统的分类任务一般只关心整体, 得到 的是一张图像的内容描述, 而目标检测任务则不同, 目标检测关注的是特定的物体目标, 目 标检测需要的是从背景中提。

13、取出感兴趣的目标, 并确定这一目标的位置, 因而目标检测输 出的是一个列表, 包含目标的类别和位置。 现有的目标检测算法一般分为两种: twostage 检测模型和onestage检测模型。 twostage检测模型先进行区域生成, 该区域称之为 region proposal, 在通过卷积网络进行样本的分类, 常用的twostage检测模型有RCNN、 SPPNet、 fast RCNN等。 onestage检测模型则不需要生成region proposal, 直接从输入 数据中提取特征, 直接预测物体的类别和位置信息, 常用的算法有: SSD和YOLO。 0004 虽然现有的twostag。

14、e检测模型在通用数据集上测试的精度不错, 但是这些模型 的检测速度非常慢, 尤其是在进行视频的检测时, 面对fps大于25的视频, twostage检测模 型完全做不到实时的检测。 相较于twostage检测模型, onestage检测模型的速度更快, 其 中YOLOv5模型的检测速度远高于twostage检测模型。 但是现有的目标检测模型只适合检 测形状规则的物体, 在宠物犬视频目标检测中, 当宠物犬在运动时, 形态发生改变, 该模型 就很难检测准确。 发明内容 0005 针对上述问题, 本发明的目的在于提供一种基于改进YOLOv5L的目标检测模型, 并通过预处理数据集, 进行数据加强, 提。

15、升检测宠物犬运动视频帧时的精确度。 0006 基于上述目的, 本发明提出了一种基于改进YOLOv5L的宠物犬视频目标检测方法 及系统。 0007 一种基于改进YOLOv5L的宠物犬视频目标检测方法, 包括如下步骤: 0008 基于获取到的包含宠物犬图像数据和获取到的包含宠物犬的视频数据分别构建 初始训练集测试集; 0009 对所述包含宠物犬的视频进行帧提取, 得到帧图像; 0010 对所述初始训练集进行预处理, 得到最终训练集; 0011 改进YOLOv5L模型并进行训练, 具体为: 搭建BackBone网络, 改进Pred模块, 在 BackBone网络后加入SK注意力机制; 设置训练参数,。

16、 对改进后的YOLOv5L模型进行训练, 保 存最佳权重参数文件; 将所述最佳权重参数文件放入检测器中, 对所述最终测试集中视频 说明书 1/5 页 4 CN 115588150 A 4 进行检测, 保存所有检测到宠物犬的视频帧, 使用AP指标对检测结果进行评估, 进而得到最 佳改进YOLOv5L模型; 0012 将待测宠物犬视频输入最佳YOLOv5L模型, 得到相应的检测结果。 作为一种可实 施方式, 所述构建初始训练集和测试集, 包括以下步骤: 0013 基于获取到的包含宠物犬图像数据, 得到所有已标注的宠物犬图片; 0014 带有不同背景噪声的宠物犬图片, 使用LabelImg标注工具对。

17、所有图片进行标注, 得到已标注的宠物犬图片, 其中所述不同背景噪声至少包括草地、 雪山、 屋内及街道中的一 种或几种; 0015 将所述已标注的宠物犬图片合并为初始训练集; 0016 在视频网站搜集人与宠物犬互动的视频, 使用4K Video工具进行下载保存; 0017 裁剪保存的视频, 使原视频拆分为3s10s的短视频, 保存所有短视频得到测试集。 0018 作为一种可实施方式, 所述对测试集中的视频进行帧提取和对初始训练集进行预 处理, 包括以下步骤: 0019 通过extractor算法对测试集中视频进行逐帧提取, 保存所有视频帧图像; 0020 从所述视频帧图像中选取部分宠物犬形态异常。

18、和运动模糊的图片并进行标注, 得 到标注图片; 0021 随机选取若干所述标注图片进行左右平移、 多图叠加及比例缩放, 得到多种形态 特征的已处理标注图片; 0022 将所述已处理标注图片和所述初始训练集进行合并得到最终训练集。 0023 作为一种可实施方式, 所述搭建BackBone网络包括下采样模块、 CBR模块、 Res模 块、 CSP_X模块; 0024 所述下采样模块; 采用split算法将640像素*640像素RGB图像切分为12通道特征 图, 通过卷积得到64通道特征图; 0025 所述CBR模块; 包括3*3卷积层、 正则化层及Relu函数; 0026 所述Res模块; 包括两。

19、个CBR模块和空层残差并且相互连接; 0027 所述CSP_X模块; 用于提取特征, 包括相互连接的CBR模块、 X个Res模块及空层残 差, 其中, X表示个数。 0028 作为一种可实施方式, 所述改进Pred模块, 包括: 在输出层前面加入flatten算法, 将特征图一维化, 将输出层中的卷积层替换为全连接层。 0029 作为一种可实施方式, 所述SK注意力机制包括split单元、 fuse单元及select单 元; split单元通过三种尺寸的卷积核对原特征图进行卷积; fuse单元计算每个卷积核的权 重, 将三个分支的特征图按元素求和, 通过全局平均池化生成通道统计信息, 得到新的。

20、特征 维度为C*1; select单元利用softmax计算每个卷积核的权重, 融合所有卷积核形成最终输 出的卷积核。 0030 作为一种可实施方式, 所述改进YOLOv5L模型并进行训练, 还包括以下步骤: 0031 修改YAML配置文件中的number class更改检测类别, 类别包括: dog、 human; 0032 设定NMS机制用于保留预测最好的预测框, 将其余预测框的置信度降为0; 0033 设定损失函数为DIOU_Loss; 0034 设置训练超参数, 设置训练轮数为300, 优化器为改进SGD, 初始学习率为0.01, 学 说明书 2/5 页 5 CN 115588150 。

21、A 5 习率动量为0.95, 训练批次为64; 0035 训练集进入模型进行训练, 经过多次迭代, 得到最佳权重参数, 保存文件为 best.pt。 0036 作为一种可实施方式, 将最佳权重参数放入检测器中, 加入缩放算法固定传入的 视频帧大小为640像素*640像素, 放入测试集视频进行检测, 保存所有检测到宠物犬的视频 帧; 采用AP指标评估模型的精确度, AP指标计算方式为: AP检测到的出现宠物犬的视频帧 数/视频中所有出现宠物犬的视频帧数。 0037 一种基于改进YOLOv5L的宠物犬视频目标检测系统, 包括数据获取模块、 图像提 取模块、 预处理模块、 模型改进训练模块及结果检测。

22、模块; 0038 所述数据获取模块, 基于获取到的包含宠物犬图像数据和获取到的包含宠物犬的 视频数据分别构建初始训练集测试集; 0039 所述图像提取模块, 对所述包含宠物犬的视频进行帧提取, 得到帧图像; 0040 所述预处理模块, 对所述初始训练集进行预处理, 得到最终训练集; 0041 所述模型改进训练模块, 用于改进YOLOv5L模型并进行训练, 具体为: 搭建 BackBone网络, 改进Pred模块, 在BackBone网络后加入SK注意力机制; 设置训练参数, 对改 进后的YOLOv5L模型进行训练, 保存最佳权重参数文件; 将所述最佳权重参数文件放入检 测器中, 对所述最终测试。

23、集中视频进行检测, 保存所有检测到宠物犬的视频帧, 使用AP指标 对检测结果进行评估, 进而得到最佳改进YOLOv5L模型; 0042 结果检测模块, 用于将待测宠物犬视频输入最佳YOLOv5L模型, 得到相应的检测 结果。 0043 与现有技术相比, 本发明提出的一种基于改进YOLOv5L的宠物犬视频目标检测方 法, 具有如下有益效果: 0044 1.通过合并多个数据集为训练集, 增加了训练时的数据量, 丰富了模型能训练到 的特征; 0045 2.通过改进YOLOv5L模型, 既减少了模型的参数量, 又加快了检测速度; 0046 3.通过抽取测试集中视频的模糊帧和遮挡帧, 合并训练集, 提高。

24、了检测宠物犬运 动模糊时的精确度, 当宠物犬形态发生改变时, 检测的精确度比未改进的YOLOv5L模型更 高; 0047 4.加入SK注意力机制, 提高了模型对于重要特征的关注度, 更好地获取局部和全 局的联系。 附图说明 0048 图1为本发明的整体实施流程步骤图。 0049 图2为对测试集中的视频进行帧提取和对初始训练集进行预处理的步骤图。 0050 图3为测试集中某视频的一张视频帧的检测结果。 具体实施方式 0051 为了清晰地阐述本发明, 下面结合了本发明实施例中的附图, 对本发明实施例中 的技术方案进行清楚、 完整地描述, 以令本领域技术人员参照说明书文字能够据以实施。 说明书 3/。

25、5 页 6 CN 115588150 A 6 0052 图1为本发明的整体流程实施步骤图, 一种基于改进YOLOv5L的宠物犬视频目标 检测方法包括如下步骤: 0053 步骤一, 构建构建初始训练集和测试集: 在kaggle上搜集数据集dogbreed和数据 集Dogs vs Cats Redux, 提取出这两个数据集中的涉及到宠物狗的图片; 搜集带有不同的 背景噪声(例如: 草地、 雪山、 屋内、 街道), 并且图片中存在宠物犬的图片; 使用LabelImg标 注工具对所有图片进行标注, 得到已标注的宠物犬图片; 将所述已标注的宠物犬图片合并 为初始训练集; 在youtube网站搜集人与宠物。

26、犬互动的视频, 使用4KVideo工具进行下载保 存; 裁剪保存的视频, 使原视频拆分为3s10s的短视频, 保存所有短视频得到测试集。 0054 步骤二, 对测试集中的视频进行帧提取和对初始训练集进行预处理, 具体步骤如 下: 使用extractor算法对测试集中视频进行逐帧提取, 保存所有视频帧图像; 从视频帧图 像中选取部分宠物犬形态异常和运动模糊的图片并进行标注, 得到有标注图片; 随机选取 训练集中图片进行左右平移、 多图叠加、 比例缩放, 丰富宠物犬的形态特征; 将所述有标注 图片和所述初始训练集进行合并得到最终训练集。 0055 步骤三, 改进YOLOv5L模型, 首先搭建Bac。

27、kBone网络, BackBone网络具体包括: 下 采样模块、 CBR模块、 Res模块、 CSP_X模块; 其中下采样模块采用split算法将640像素*640像 素RGB图像切分为12通道特征图, 再通过卷积得到64通道特征图; Backbone包含5个CBR模 块, CBR模块由3*3卷积层、 正则化层、 Relu函数构成; Res模块由两个CBR模块和空层残差连 接; CSP_X模块用于主要特征提取, 由CBR模块、 X个Res模块和空层残差连接; Backbone包含 一个CSP_2, 两个CSP_4, 一个CSP_8模块。 0056 步骤四, 改进YOLOv5L模型, 其次, 改。

28、进Pred模块, 具体如下: 在输出模块前面加入 flatten算法, 将特征一维化, 输出模块中的卷积层替换成全连接层; 本模型检测的种类较 少, 全连接层不会增加过多的参数计算, 并且在检测精确度上可以做到更好。 0057 步骤五, 改进YOLOv5L模型, 在BackBone网络后面加入SK注意力机制, 该机制由 split、 fuse、 select三部分组成; split部分先通过三种尺寸的卷积核对原特征图进行卷 积; fuse部分计算每个卷积核的权重, 将三个分支的特征图按元素求和, 通过全局平均池化 生成通道统计信息, 得到新的特征维度为C*1; select部分利用softma。

29、x计算每个卷积核的 权重, 融合所有卷积核形成最终输出的卷积核。 0058 步骤六, 对改进后的模型进行训练, 具体如下: 修改YAML配置文件中的number class更改检测类别, 类别包括: dog、 human; 设定NMS机制用于保留预测最好的预测框, 将其 余预测框的置信度降为0; 设定损失函数为DIOU_Loss; 设置训练超参数, 设置训练轮数为 300, 优化器为改进SGD, 初始学习率为0.01, 学习率动量为0.95, 训练批次为64; 训练集进入 模型进行训练, 经过多次迭代, 得到最佳权重参数, 保存文件为best.pt。 0059 步骤七, 将权重参数文件best。

30、.pt放入检测器中, 加入缩放算法固定传入的视频帧 大小为640像素*640像素, 放入测试集视频进行检测, 保存所有检测到宠物犬的视频帧; 采 用AP指标评估模型的精确度, AP指标计算方式为: AP检测到的出现宠物犬的视频帧数/视 频中所有出现宠物犬的视频帧数。 0060 上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。 熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改, 并把在此说明的一般 原理应用到其他实施例中而不必经过创造性的劳动。 因此, 本发明不限于上述实施例, 本领 说明书 4/5 页 7 CN 115588150 A 7 域技术人员根据本发明的揭示, 对于本发明做出的改进和修改都应该在本发明的保护范围 之内。 说明书 5/5 页 8 CN 115588150 A 8 图1 说明书附图 1/2 页 9 CN 115588150 A 9 图2 图3 说明书附图 2/2 页 10 CN 115588150 A 10 。

相关知识

YOLOv5改进系列(0)——重要性能指标、训练结果评价及分析、影响mAP指标的因素、优化mAP的方法
改进帧间差分
改进YOLO的群养猪行为识别算法研究及部署(小程序
一种基于YOLO
基于yolov8、yolov5的鸟类检测系统(含UI界面、数据集、训练好的模型、Python代码)
如何制作并使用 基于深度学习Yolov5的鸟类识别检测系统
基于深度学习的鱼类分类检测系统 —— YOLOv5的实现与应用
YOLOv5实现目标检测:从零到一训练猫猫识别
基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的鸟类识别系统(Python+PySide6界面+训练代码)
肆十二/YOLOV5

网址: 基于改进YOLOv5 https://m.mcbbbk.com/newsview985346.html

所属分类:萌宠日常
上一篇: 一种飞盘狗运动训练系统及训练方法
下一篇: 一次性筷子diy小房子 自制仓鼠