首页 > 分享 > 视频分析模型(行为识别):C3D

视频分析模型(行为识别):C3D

C3D

文章目录 C3D 1. 简介 1.1 背景 1.2 C3D特点 1.3 视频描述符 1.4 C3D的结果 2. 架构 2.1 工作流程 2.2 网络结构 2.3 3D卷积和池化 2.4 kernel 的时间深度 3. 可视化 3.1 特征图 3.2 特征嵌入 4. 应用场景 4.1 动作识别 4.2 动作相似度标注 4.3 场景和目标识别 4.4 运行时间分析 1. 简介

论文:https://arxiv.org/abs/1412.0767v4

github

原代码:https://github.com/facebook/C3D

TensorFlow:https://github.com/hx173149/C3D-tensorflow

1.1 背景

卷积神经网络(CNN)被广泛应用于计算机视觉中,包括分类、检测、分割等任务。

这些任务一般都是针对图像进行的,使用的是二维卷积(即卷积核的维度为二维)。而对于基于视频分析的问题,2D convolution不能很好得捕获时序上的信息,因此3D卷积就被提出来了。

3D卷积 最早应该是在 《3D convolutional neural networks for human action recognition》 这片论文中被提出并用于行为识别的,而C3D是作为一个通用的网络提出的,论文中将其用于行为识别,场景识别,视频相似度分析等领域。

1.2 C3D特点 3D ConvNets比2D ConvNets更适用于时空特征的学习 对于3D ConvNet而言,在所有层使用3×3×3的小卷积核效果最好 通过简单的线性分类器学到的特征名为C3D(Convolutional 3D),在4个不同的任务和6个基准上表现优秀,在2015年达到SOTA 特征紧凑:在UCF101数据集上得到52.8%的准确率只用了10维(PCA+SVM) 推断快,计算效率非常高,在论文中实验时就有300帧以上的FPS,使用 NVIDIA 1080 GPU 能达到600帧以上 概念简单,易于训练和使用 1.3 视频描述符

一个有效的视频描述符有四个属性:

通用性。可以表示不同类型的视频,同时具有可区分性。例如,网络视频可以是自然风光、运动、电视节目、电影、宠物、食物等 描述符必须是紧凑的。由于我们需要处理数百万的视频,一个紧凑的描述符有助于处理,存储和检索任务,更具可扩展性; 计算高效。因为在现实世界中,每一分钟都需要处理成千上万的视频; 实现简单。不使用复杂的特征编码方法和分类器,一个好的描述符即使是一个简单

相关知识

视频分析模型(行为识别):C3D
【深度学习论文翻译】Learning Spatiotemporal Features with 3D Convolutional Networks全文对照翻译
OpenCV怎么进行宠物识别和行为分析
视频理解综述:动作识别、时序动作定位、视频Embedding
运用高斯混合模型识别动物声音情绪
一种基于深度学习的宠物行为识别方法及系统
基于自然行为的新物体识别模型,为研究啮齿动物记忆提供非侵入性方法
动物视频跟踪和行为分析系统
基于DOG的异常行为监测模型的设计
模型案例:| 音频识别-鸟声识别模型!

网址: 视频分析模型(行为识别):C3D https://m.mcbbbk.com/newsview292744.html

所属分类:萌宠日常
上一篇: 用ROC曲线解析预测模型
下一篇: 蚁群算法+Dijkstra算法=