内容推荐 随着以高通量测序技术为代表的新技术得到发展和广泛应用,越来越多可利用的密集型数据开始出现。同时,大数据技术也处于如火如荼的发展中。在大数据环境下处理密集型数据成为可能,而其处理性能也是信息技术能否成功应用的关键。本书首先综述了从以基因表达数据为代表的密集型数据中挖掘局部模式的方法:并围绕局部模式并行挖掘的执行性能问题,提出了大数据环境下减少数据交互量的计算框架,在此基础上设计挖掘多种类型的局部模式的并行算法。其次,为了从源数据中直接搜索符合特定要求的多类型的局部模式,提出了基于前缀树索引的查询方法,进而提升了密集型数据的分析效率;然后针对局部模式的挖掘、索引与查询问题,设计了一个名为OEMGA的原型系统。最后,提出了利用领域知识的约束查询方法来提升局部模式查询的相关性。本书为大数据环境下密集型数据的有效分析提供了切实可行的解决方案,具有重要的理论意义和应用价值。 目录 1绪论 1.1研究背景 1.2基因表达数据挖掘 1.3基因表达数据挖掘研究现状概述 1.3.1基于定量测度的双聚类 1.3.2基于定性测度的双聚类 1.3.3基于查询的双聚类 1.3.4约束型双聚类 1.3.5存在的问题 1.4主要工作 1.5组织结构 2基因表达数据中的局部模式挖掘研究综述 2.1引言 2.2问题定义 2.3局部模式类型与标准 2.4研究现状 2.4.1基于定量测度的双聚类 2.4.2基于定性测度的双聚类 2.4.3基于查询的双聚类 2.4.4约束型双聚类 2.4.5存在的问题 2.5未来研究方向 2.6小结 3基于蝶形网络的基因表达数据并行分割与挖掘方法 3.1引言 3.2问题定义与分析 3.2.1问题定义 3.2.2优缺点分析 3.3并行分割方法 3.3.1基于蝶形网络的HamaBSP框架 3.3.2基于分布式哈希表的去冗余方法 3.3.3结果完整性的证明 3.4实验评估 3.4.1分布式并行方法与单机实现的比较 3.4.2分布式并行框架的比较 3.5相关工作 3.6小结 …… 4OPSM的索引与查询 5OMEGA:OPSM的挖掘、索引与查询工具 6基因表达数据中OPSM的约束查询 7基于数字签名与Trie的OPSM约束查询 8总结与展望 参考文献 |