"《深度学习视频理解》是一本综合介绍近期新基于深度学习的视频理解算法的参考书,通过理论与实践相结合的形式详细介绍了视频理解中的识别、定位、特征表示等诸多重点任务和方法。对该领域的研究者和从业者都非常实用。
作者张皓毕业于有名的南京大学LAMDA研究所,现任腾讯在线视频研究员。在视频理解领域深入研究多年。"
网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 深度学习视频理解 |
分类 | 教育考试-考试-计算机类 |
作者 | 张皓 |
出版社 | 电子工业出版社 |
下载 | |
简介 | 编辑推荐 "《深度学习视频理解》是一本综合介绍近期新基于深度学习的视频理解算法的参考书,通过理论与实践相结合的形式详细介绍了视频理解中的识别、定位、特征表示等诸多重点任务和方法。对该领域的研究者和从业者都非常实用。 作者张皓毕业于有名的南京大学LAMDA研究所,现任腾讯在线视频研究员。在视频理解领域深入研究多年。" 内容推荐 视频理解是计算机视觉和深度学习的一个重要分支。本书对视频理解的3个重要领域进行介绍,对于每个领域,本书不仅解释了相关算法的原理,还梳理了算法演进的脉络。全书共分6章,第1章简要介绍视频行业的发展历程;第2章回顾经典图像分类模型和RNN;第3章和第4章介绍动作识别的重要算法;第5章介绍时序动作定位的重要算法;第6章介绍视频Embedding的重要算法。最后总结了常用的一些视频处理工具。本书既适合高等院校人工智能相关专业的本科生和研究生阅读,也可供视频理解、推荐系统、搜索引擎和计算广告等领域的研究人员和从业者参考。 目录 第1章 绪论\t1 1.1 引言\t1 1.2 本书内容\t5 1.2.1 图像分类\t7 1.2.2 动作识别\t9 1.2.3 时序动作定位\t12 1.2.4 视频Embedding\t14 1.3 本章小结\t15 第2章 经典网络结构回顾\t16 2.1 经典图像分类网络\t16 2.1.1 LetNet-5\t16 2.1.2 AlexNet\t18 2.1.3 VGGNet\t22 2.1.4 GoogLeNet\t24 2.1.5 Inception V2/V3\t27 2.1.6 ResNet\t28 2.1.7 preResNet\t31 2.1.8 WRN\t32 2.1.9 随机深度网络\t33 2.1.10 DenseNet\t35 2.1.11 ResNeXt\t36 2.1.12 SENet\t39 2.1.13 MobileNet\t41 2.1.14 MobileNet V2/V3\t44 2.1.15 ShuffleNet\t46 2.1.16 ShuffleNet V2\t49 2.2 RNN、LSTM和GRU\t51 2.2.1 RNN\t51 2.2.2 梯度爆炸与梯度消失\t52 2.2.3 LSTM\t55 2.2.4 GRU\t58 2.3 本章小结\t60 第3章 基于2D卷积的动作识别\t62 3.1 平均汇合\t62 3.2 NetVLAD和NeXtVLAD\t64 3.2.1 VLAD\t65 3.2.2 NetVLAD\t66 3.2.3 NeXtVLAD\t71 3.2.4 NetFV和其他策略\t75 3.3 利用RNN融合各帧特征\t77 3.3.1 2D卷积 + RNN的基本结构\t78 3.3.2 对RNN结构进行改造\t80 3.4 利用3D卷积融合各帧特征\t81 3.4.1 什么是3D卷积\t82 3.4.2 ECO\t85 3.5 双流法\t87 3.5.1 什么是光流\t87 3.5.2 双流法的基本网络结构\t89 3.5.3 双流法的网络结构优化\t91 3.6 时序稀疏采样\t95 3.6.1 TSN\t95 3.6.2 TSN的实现\t98 3.6.3 ActionVLAD\t99 3.6.4 StNet\t100 3.6.5 TRN\t102 3.7 利用iDT轨迹\t104 3.7.1 DT和iDT\t104 3.7.2 TDD\t107 3.8 本章小结\t108 第4章 基于3D卷积的动作识别\t110 4.1 3D卷积基础网络结构\t110 4.1.1 C3D\t110 4.1.2 Res3D/3D ResNet\t113 4.1.3 LTC\t116 4.2 I3D\t118 4.2.1 5类动作识别网络\t118 4.2.2 2D卷积扩展为3D卷积\t119 4.2.3 5类网络对比\t121 4.3 3D卷积的低秩近似\t123 4.3.1 低秩近似的基本原理\t124 4.3.2 FSTCN\t125 4.3.3 P3D\t127 4.3.4 R(2+1)D\t129 4.3.5 S3D\t132 4.4 TSM\t135 4.5 3D卷积 + RNN\t137 4.6 ARTNet\t139 4.7 Non-Local\t141 4.7.1 Non-Local 操作\t141 4.7.2 Non-Local 动作识别网络\t144 4.8 SlowFast\t148 4.8.1 Slow分支和Fast分支\t149 4.8.2 网络结构设计\t151 4.9 3D卷积神经网络超参数设计\t152 4.9.1 多网格训练\t152 4.9.2 X3D\t154 4.10 本章小结\t157 第5章 时序动作定位\t159 5.1 基于滑动窗的算法\t160 5.1.1 S-CNN\t161 5.1.2 TURN\t166 5.1.3 CBR\t169 5.2 基于候选时序区间的算法\t171 5.2.1 Faster R-CNN 回顾\t172 5.2.2 R-C3D\t175 5.2.3 TAL-Net\t178 5.3 自底向上的时序动作定位算法\t183 5.3.1 BSN\t183 5.3.2 TSA-Net\t187 5.3.3 BMN\t191 5.4 对时序结构信息建模的算法\t197 5.4.1 TAG 候选时序区间生成算法\t198 5.4.2 SSN 网络结构\t199 5.5 逐帧预测的算法\t202 5.5.1 CDC层\t203 5.5.2 CDC 网络结构\t206 5.6 单阶段算法\t208 5.6.1 SSAD\t208 5.6.2 SS-TAD\t212 5.6.3 GTAN\t214 5.7 本章小结\t217 第6章 视频Embedding\t219 6.1 基于视频内容的无监督 Embedding\t220 6.1.1 编码-解码网络\t221 6.1.2 视频序列验证\t222 6.1.3 视频和音频信息\t224 6.1.4 视频和文本信息\t225 6.2 Word2Vec\t229 6.2.1 CBOW和Skip-Gram\t229 6.2.2 分层 Softmax\t234 6.2.3 负采样\t239 6.3 Item2Vec\t247 6.3.1 Item2Vec 基本形式\t247 6.3.2 Item2Vec的改进\t249 6.4 基于图的随机游走\t252 6.4.1 DeepWalk\t252 6.4.2 Node2Vec\t254 6.5 结合一二阶相似度\t257 6.5.1 LINE\t258 6.5.2 SDNE\t262 6.6 基于图的邻居结点\t265 6.6.1 GCN\t265 6.6.2 GraphSAGE\t269 6.6.3 GAT\t272 6.7 基于多种信息学习视频Embedding\t274 6.7.1 召回模型\t276 6.7.2 训练\t278 6.8 本章小结\t280 附录A 视频处理常用工具\t281 A.1 FFmpeg\t281 A.2 OpenCV\t284 A.3 Decord\t291 A.4 Lintel\t294 参考文献\t296 书评(媒体评论) "视频理解是当前计算机视觉研究领域中备受学术界和工业界关注的方向。本书通过理论与实践相结合的形式详尽地介绍了视频理解中的识别、定位、特征表示等诸多重点任务和方法,同时本书也是综合介绍较新的基于深度学习的视频理解算法的中文书籍,对该领域的研究者和从业者都非常实用。 视频理解领域研究者、资深算法工程师 林天威 随着视频行业的高速发展,如何利用 AI 技术更好地对视频内容进行理解变得越来越重要。张皓在视频理解领域深入研究多年,是 AI 技术应用领域的专家。在本书中,他结合自身的经历,详细介绍了视频理解的前生今世,为读者打开了 AI 世界的大门。本书内容介绍由浅入深,层层递进,对致力于研究视频理解领域的读者来说是一本好书。 腾讯在线视频 AI 技术中心副总监 王烨鑫 本书是张皓多年科学研究之积累、呕心沥血之作品,它将理论与实践紧密结合起来,内容涵盖深度学习的基础知识和视频理解的诸多方面。本书对希望了解和掌握相关领域的初学者及从业人员来说是一本非常实用的参考书。 南京理工大学教授 魏秀参" |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。