作者简介 刘通,上海交通大学安泰经济与管理学院管理科学与工程专业博士,现任国内知名金融机构算法工程师。作者曾在管理学领域和计算机科学领域的国内核心期刊上发表过诸多与文本挖掘应用技术相关的重要研究成果。此外,作者在就读博士期间,将技术理论有效结合实践,采用文本挖掘方法对用户在线医疗平台上的医生选择和医疗在线服务购买的决策行为进行了深入研究,对如何改进在线平台的盈利模型并提高市场收益提出有价值的管理学见解。作者还曾参与过上海交通大学与华为技术有限公司合作的分布式计算平台的深度学习算法选型研究,比较了包括Theano、Tensorflow、Deeplearning4j在内的不同深度学习平台在分布式环境下的性能与算法兼容情况。 目录 第1章 概述 1.1 网络运营与文本分析 1.1.1 互联网运营的战略思维 1.1.2 网络运营与大数据文本分析 1.2 文本分析的4V特征 1.2.1 Volume特征 1.2.2 Variety特征 1.2.3 Value特征 1.2.4 Velocitv特征 1.3 在线文本分析应用 1.3.1 在线文本分析的管理类应用 1.3.2 在线文本分析的内容类应用 1.4 本章小结 第2章 预备知识 2.1 文本挖掘的主要任务 2.2 语义分析与语法分析 2.3 文本的结构化分析 2.4 文本的标准化分析 2.5 机器学习的基本概念 2.5.1 机器学习与深度学习 2.5.2 机器学习的基本要素 2.6 机器学习的重要问题 2.6.1 概率图模型 2.6.2 判别式模型和产生式模型 2.6.3 机器学习模型求解 2.6.4 模型过拟合 2.7 本章小结 第3章 文本建模 3.1 文本建模的基本概念 3.2 文本建模的应用场景 3.2.1 主体角色识别 3.2.2 语言风格分析 3.2.3 智能系统 3.2.4 文本表示 3.2.5 文本降维 3.2.6 话题分析 3.3 语言学建模概述 3.4 词标注分析 3.5 句法分析 3.5.1 转换生成语法 3.5.2 依存句法 3.6 知识库与语义网 3.7 统计学建模概述 3.8 向量空间模型 3.9 LSI模型 3.9.1 SVD 3.9.2 基于SVD的降维分析 3.10 Unigram模型 3.11 pLSI模型 3.11.1 pLSI的模型结构 3.11.2 pLSI的参数估计 …… 第4章 文本分类 第5章 文本聚类 第6章 序列标准 第7章 信息检索 第8章 文本摘要 第9章 口碑分析 第10章 社交网络分析 第11章 深度学习与NLP 第12章 实证研究 第13章 总结
内容推荐 为了满足大数据环境下网络运营与管理的需求,本书详细而系统地介绍了有关文本分析的核心技术与方法。本书基于统计分析、数据挖掘、机器学习等计算机技术,介绍了如何对在线环境的文本内容进行建模与分析,同时介绍了文本分析技术的具体应用场景。本书并非是纯粹的技术类书籍,而是一本教授读者如何更好地应用技术的实践手册。 本书分为13章,内容主要包括3个方面:①文本分析概要,包括概述、预备知识;②文本分析的基础类方法,包括文本建模、文本分类、文本聚类、序列标注;③文本分析的应用类方法,包括信息检索、文本摘要、口碑分析、社交网络分析、深度学习与NLP、实证研究。 本书内容丰富、详略得当,结构清晰、系统。阅读本书需要读者具备一定的统计学知识和与数据挖掘相关的基础知识。本书特别适合对文本分析技术感兴趣的学生、科研工作者,以及数据分析类职业的工作人员阅读和参考。 |