内容理解(技术算法与实践)孙子荀机械工业出版社豆瓣PDF电子书bt网盘迅雷下载-霍普软件下载网

书名

内容理解(技术算法与实践)

分类

作者

孙子荀

出版社

机械工业出版社

下载

简介

内容推荐

这是一本在AI大模型技术背景下深入讲解内容理解的技术原理、算法实现与业务实践的著作，由腾讯的高级总监和资深内容专家领衔撰写，全面融入了工业界在内容业务方面积累的先进技术和成熟经验。全书围绕内容理解、内容生成、内容质量3大关键领域展开，从内容产业的发展趋势与挑战到各种技术和算法，从行业的先进的研究成果到各种典型的应用案例，应有尽有。第一部分内容理解（第1~7章）首先，详细介绍了内容理解的各个模块，包括文本、图像、语音等单模态内容的理解以及多场景文本、视频等多模态内容的理解，帮助读者全面了解内容理解的核心概念、技术细节和研究进展。接着，讲解了多模态学习在内容理解中的应用、多模态内容理解的理论框架和大规模预训练技术。最后，介绍了两个主流的内容理解框架，并结合一个自研的多模态内容理解框架，阐述了解决内容理解问题的流程和具体方案。第二部分内容生成（第8~11章）详细讲解了内容生成的技术细节，结合作者团队在业务实践中探索的应用案例，从图片生成、文本生成、AI素材合成到AI创作，介绍了内容创作的全栈技术，能帮助读者由浅入深地理解内容生成的技术原理与业务实践。第三部分内容质量（第12~14章）详细讲解了信息流产品常见的内容质量问题，比如标题党、假新闻、低俗图片等，介绍了如何对这些与内容质量相关的业务场景进行拆解和定义，将抽象的业务场景转化为可以建模的问题。此外，还介绍了作者团队采用的业务建模流程以及业界常用的解决方案和研究进展。

作者简介
前言
第一分　内容理解
第1章文本内容理解
1.1 文本表示
1.1.1 文本表示的研究背景
1.1.2 文本表示的方法
1.2 文本分类
1.2.1 文本分类的研究背景
1.2.2 文本分类的方法
1.3 本章小结
第2章图像理解
2.1 图像分类
2.1.1 传统图像分类算法
2.1.2 深度学图像分类算法
2.2 图像检测
2.2.1 图像匹配算法
2.2.2 基于OpenCV的模板匹配实现
2.2.3 目标检测算法
2.3 实际应用：通用元素检测框架
2.4 本章小结
第3章语音理解
3.1 语音表征
3.1.1 基于传统方法的语音表征
3.1.2 基于深度学的语音表征
3.2 基于深度学的音乐分类
3.2.1 基于CNN的音乐分类
3.2.2 基于RNN的音乐分类
3.2.3 基于领域知识的CNN
3.2.4 基于注意力机制的后端模块
　　　算法
3.3 本章小结
第4章场景文字检测与识别
4.1 场景文字的研究方向
4.1.1 研究问题
4.1.2 研究难点
4.1.3 未来趋势
4.2 场景文本算法的现状
4.2.1 基于传统机器学的文本检测
4.2.2 基于传统机器学的文本识别
4.2.3 基于深度学的文本检测
4.2.4 基于深度学的文本识别
4.2.5 基于深度学的端到端系统
4.3 场景文本算法辅助技术
4.3.1 不规则文本识别问题
4.3.2 文本图像合成技术
4.3.3 半监督技术
4.4 数据集和评估标准
4.4.1 基准数据集
4.4.2 文本检测评估标准
4.4.3 文本识别评估标准
4.5 文本检测和识别的应用、现状
　　与未来
4.5.1 应用
4.5.2 现状
4.5.3 挑战与未来趋势
4.6 本章小结
第5章视频理解
5.1 视频表征
5.1.1 研究目标与意义
5.1.2 研究进展
5.2 视频动作识别
5.2.1 研究目标与意义
5.2.2 研究难点
5.2.3 研究进展
5.3 视频时序动作定位
5.3.1 研究目标与意义
5.3.2 研究难点
5.3.3 研究进展
5.4 视频结构化分析
5.4.1 研究目标与意义
5.4.2 研究难点
5.4.3 基于视频结构化的数据集
5.4.4 视频结构的划分方法
5.4.5 研究进展
5.5 本章小结
第6章多模态学与内容理解
6.1 多模态内容理解的研究方向
6.1.1 研究问题
6.1.2 研究意义与挑战
6.1.3 研究方向与应用
6.2 多模态表征
6.2.1 因果表征
6.2.2 联合表征
6.3 多模态内容理解框架
6.3.1 模态间推理
6.3.2 模态间协同
6.3.3 模态间推理：零样本图像
　　　分类
6.3.4 模态间协同：虚假新闻识别
6.4 大规模预训练技术
6.4.1 文本预训练
6.4.2 图像预训练
6.4.3 音频预训练
6.4.4 多模态预训练
6.5 本章小结
第7章内容理解框架
7.1 常见的内容理解框架
7.1.1 Tensor2Tensor
7.1.2 OmniNet
7.2 自研多模态内容理解框架
7.2.1 框架设计背景
7.2.2 contentAI框架介绍
7.2.3 高度配置化
7.2.4 高度组件化
7.2.5 模式与用户模式
7.2.6 计算式网络搭建
7.2.7 计算图网络搭建
7.2.8 自动化数据集构建
7.2.9 化
7.2.10 快速服务化
7.2.11 内容理解
7.2.12 代码编写范例
7.3 本章小结
第二分　内容生成
第8章图片生成
8.1 基于GAN的图片生成
8.1.1 生成对抗网络
8.1.2 条件图片生成
8.1.3 文本转图片
8.1.4 图片迁移
8.1.5 高分辨率图片生成
8.2 基于扩散模型的图片生成
8.2.1 扩散模型
8.2.2 扩散模型生成图片
8.3 图片设计
8.3.1 智能裁剪
8.3.2 智能布局
8.4 本章小结
第9章文本生成
9.1 文本生成的背景知识
9.1.1 语言模型
9.1.2 CFG文法
9.1.3 Encoder-Decoder框架
9.1.4 文本生成质量量化
9.2 文本生成算法
9.2.1 基于统计的文本生成模型
9.2.2 基于经网络的文本生成技术
9.3 本章小结
第10章 AI素材合成
10.1 AI人脸属性编辑
10.1.1 研究目标与意义
10.1.2 研究难点
10.1.3 研究进展
10.2 AI语音合成
10.2.1 研究目标与意义
10.2.2 基本的语音合成系统简介
10.2.3 端到端的语音合成系统
10.2.4 基于深度学的算法介绍
10.3 AI虚拟人技术
10.3.1 研究目标与意义
10.3.2 二维多目标人体姿态估计
10.3.3 二维-三维人体姿态转换
10.4 AI表情合成
10.4.1 表情性
10.4.2 表情自动合成的意义及
　　　　挑战
10.4.3 表情合成算法
10.4.4 表情合成应用
10.5 本章小结
第11章视频编辑
11.1 结构化数据视频编辑
11.1.1 基于

导语

（1）作者背景权威：内容理解领域的资深专家，多位国内外高校博士，技术专家骨干。（2）团队经验丰富：作者团队在内容理解和生成领域工作了10余年，获得了十几个技术大奖和业务大奖，也在内容领域有丰富的经验。（3）实践经验：全书以工业界丰富的内容算法成果为支撑，全面讲解了企业在内容理解、内容生成、内容质量3大业务场景中的工程经验和案例。（4）行业先进成果：不仅有互联网的优秀技术和实践，而且还融合了全球技术界在内容理解与生成领域的先进思想和成果。（5）大模型多模态：一本书讲透文本、图片、音频、视频等各种模态的理解和生成，掌握大模型时代的关键技术。

随便看

霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。