论文:https://arxiv.org/abs/1412.0767v4
github:
原代码:https://github.com/facebook/C3D
TensorFlow:https://github.com/hx173149/C3D-tensorflow
1.1 背景卷积神经网络(CNN)被广泛应用于计算机视觉中,包括分类、检测、分割等任务。
这些任务一般都是针对图像进行的,使用的是二维卷积(即卷积核的维度为二维)。而对于基于视频分析的问题,2D convolution不能很好得捕获时序上的信息,因此3D卷积就被提出来了。
3D卷积 最早应该是在 《3D convolutional neural networks for human action recognition》 这片论文中被提出并用于行为识别的,而C3D是作为一个通用的网络提出的,论文中将其用于行为识别,场景识别,视频相似度分析等领域。
1.2 C3D特点 3D ConvNets比2D ConvNets更适用于时空特征的学习 对于3D ConvNet而言,在所有层使用3×3×3的小卷积核效果最好 通过简单的线性分类器学到的特征名为C3D(Convolutional 3D),在4个不同的任务和6个基准上表现优秀,在2015年达到SOTA 特征紧凑:在UCF101数据集上得到52.8%的准确率只用了10维(PCA+SVM) 推断快,计算效率非常高,在论文中实验时就有300帧以上的FPS,使用 NVIDIA 1080 GPU 能达到600帧以上 概念简单,易于训练和使用 1.3 视频描述符一个有效的视频描述符有四个属性:
通用性。可以表示不同类型的视频,同时具有可区分性。例如,网络视频可以是自然风光、运动、电视节目、电影、宠物、食物等 描述符必须是紧凑的。由于我们需要处理数百万的视频,一个紧凑的描述符有助于处理,存储和检索任务,更具可扩展性; 计算高效。因为在现实世界中,每一分钟都需要处理成千上万的视频; 实现简单。不使用复杂的特征编码方法和分类器,一个好的描述符即使是一个简单相关知识
视频分析模型(行为识别):C3D
【深度学习论文翻译】Learning Spatiotemporal Features with 3D Convolutional Networks全文对照翻译
OpenCV怎么进行宠物识别和行为分析
视频理解综述:动作识别、时序动作定位、视频Embedding
运用高斯混合模型识别动物声音情绪
一种基于深度学习的宠物行为识别方法及系统
基于自然行为的新物体识别模型,为研究啮齿动物记忆提供非侵入性方法
动物视频跟踪和行为分析系统
基于DOG的异常行为监测模型的设计
模型案例:| 音频识别-鸟声识别模型!
网址: 视频分析模型(行为识别):C3D https://m.mcbbbk.com/newsview292744.html
上一篇: 用ROC曲线解析预测模型 |
下一篇: 蚁群算法+Dijkstra算法= |