![]()
内容推荐 本教材是以数据挖掘理论为基础,从新媒体技术专业切入展开,从理论与实践结合的角度进行撰写。与以往同类教材相比,主要特色体现在以下三个方面。首先,结合新媒体技术专业培养体系,从新媒体行业需求出发开展教材编写,注重培养学生关于大数据及新媒体的理论基础和实践能力。其次,结合传统数据挖掘基础理论及大数据处理技术,以新媒体行业需求为切入点进行教材的编写。最后,结合新媒体技术专业的知识体系,总体构架,来设计大量新媒体案例,为新媒体技术专业的教学工作提供实践支撑。 目录 第1章 绪论 1.1 新媒体的概念 1.2 新媒体数据挖掘应用场景 1.2.1 舆情分析 1.2.2 产品推荐 1.2.3 金融风控 1.2.4 公共卫生管理 1.2.5 媒体监测 1.3 新媒体数据挖掘的研究对象 1.3.1 文本数据 1.3.2 结构化数据 1.3.3 多模态数据 1.4 新媒体数据挖掘的研究任务 1.4.1 数据分布理论 1.4.2 数据搜索理论 1.4.3 数据分类 1.4.4 聚类分析 1.4.5 热点词分析 1.4.6 其他研究任务 1.5 新媒体数据挖掘的技术难点 1.6 本教材的内容和结构 第2章 数据的基本概念 2.1 数据对象与属性类型 2.1.1 数据概述 2.1.2 数据属性概述 2.2 数据的基本统计描述 2.2.1 集中趋势的测定 2.2.2 离中趋势的测定 2.2.3 数据分布形态的测定 2.3 数据的可视化 2.3.1 数据可视化的提出 2.3.2 数据可视化方法 2.3.3 数据可视化案例 2.4 数据的相似性与相异性 2.4.1 相似性和相异性 2.4.2 邻近度度量 2.4.3 相似性和相异性案例 第3章 数据分布理论 3.1 二八分布法则 3.2 网络分布模型 3.2.1 幂律分布和BA模型 3.2.2 无标度网络 3.2.3 泊松分布与随机网络 3.2.4 六度空间理论 3.3 自然语言三大分布定律 3.3.1 zipf分布 3.3.2 Heaps分布 3.3.3 Benford分布 3.3.4 极值理论 第4章 新媒体数据搜索 4.1 新媒体数据搜索的基本概念 4.2 数据搜索模型 4.2.1 布尔检索模型 4.2.2 向量空间模型 4.2.3 概率论模型 4.3 搜索结果评价 4.3.1 无序搜索结果集合和评价 4.3.2 有序搜索结果的评价方法 4.3.3 相关性判定 4.3.4 结果片段 4.4 案例分析 4.41 1布尔检索模型及其优化 4.4.2 向量空间模型实例 4.4.3 概率论模型之BM25算法 第5章 新媒体数据分类技术 5.1 数据分类的基本概念 5.2 决策树分类方法 5.2.1 决策树归纳 5.2.2 ID3算法 5.2.3 C4.5算法 5.2.4 SLIQ算法 5.2.5 SPRJNT算法 5.3 贝叶斯分类方法 5.3.1 贝叶斯定理 5.3.2 朴素贝叶斯分类 5.3.3 TAN算法 5.4 基于规则的分类 5.4.1 使用IF-THEN规则分类 5.4.2 由决策树提取规则 5.4.3 使用顺序覆盖算法的规则归纳 5.5 案例分析 5.5.1 决策树分类 5.5.2 朴素贝叶斯分类——文本分类 5.5.3 基于规则的分类——案例分析 第6章 新媒体数据的聚类分析 6.1 聚类分析 6.1.1 聚类分析含义及性质 6.1.2 聚类算法分类 6.1.3 聚类和分类的区别 6.1.4 聚类分析中的相似性度量 6.2 划分方法 6.2.1 K-means 6.2.2 K-means改进算法 6.3 层次方法 6.3.1 凝聚式层次聚类 6.3.2 BIRCH 6.4 密度方法 6.4.1 DBSCAN 6.4.2 OPTICS 6.5 案例分析 6.5.1 实验环境 6.5.2 实验 第7章 新媒体数据的热点词分析 7.1 热点词分析基本概念 7.1.1 信息抽取 7.1.2 关键词 7.1.3 热点词 7.1.4 主题模型 7.2 LDA模型 7.2.1 多项分布与狄利克雷分布 7.2.2 示例分析 7.3 LSA模型 7.3.1 SVD 7.3.2 LSA 7.3.3 PLSA 7.4 TextRank 7.4.1 PageRank 7.4.2 TextRank 7.5 案例分析 7.5.1 实验环境 7.5.2 实验 后记 参考文献 |