网站首页 软件下载 游戏下载 翻译软件 电子书下载 电影下载 电视剧下载 教程攻略
书名 | 机器学习与专利挖掘(中国科学技术信息研究所研究生系列教材) |
分类 | |
作者 | 陈亮 |
出版社 | 科学技术文献出版社 |
下载 | ![]() |
简介 | 内容推荐 该书为专利分析和人工智能交叉领域的一本研究专著,涉及行业技术、法律法规、数据科学、机器学习等方面的知识。全书注重实践应用,讲述一种机器学习技术如何解决专利分析的实际问题。内容聚焦于如何利用人工智能技术从专利信息中挖掘技术和法律知识,为政府、企业技术路线选择和研发方案制定提供决策支持,不仅具有一定学术价值和实际应用价值,而且对当前机器学习和知识产权交叉领域学术专著相对匮乏的现状,也是一个很好的补充。 目录 第1章 绪论:专利挖掘研究进展一览 1.1 引言 1.2 专利基础知识 1.2.1 专利文献结构 1.2.2 专利数据特点 1.3 基础资源建设 1.3.1 无标注数据资源 1.3.2 标注数据资源 1.3.3 词嵌入向量词典和模型检查点 1.3.4 小结 1.4 专利信息处理和规范化 1.4.1 术语抽取 1.4.2 命名实体识别 1.4.3 语义关系抽取 1.4.4 跨篇章实体共指消解 1.4.5 小结 1.5 面向专利信息服务的智能算法研究 1.5.1 案源分配 1.5.2 专利检索 1.5.3 技术路线图 1.5.4 专利价值评估 1.5.5 专利撰写 1.5.6 专利诉讼 1.5.7 小结 1.6 本章小结 第2章 信息抽取:从专利文本中抽取结构化信息 2.1 引言 2.2 相关研究 2.2.1 技术信息获取 2.2.2 技术信息规范化 2.2.3 技术信息分类 2.2.4 反思 2.3 数据标注 2.3.1 命名实体和语义关系类型定义 2.3.2 文本标注 2.4 方法 2.4.1 命名实体识别 2.4.2 实体对生成 2.4.3 语义关系识别 2.5 实证分析 2.5.1 词嵌入的选择 2.5.2 实验结果和分析 2.6 本章小结 第3章 联合模型:利用专利特点提升语义关系的分类效果 3.1 引言 3.2 专利文本特点探索 3.2.1 数据采集和指标计算 3.2.2 专利文本和普通文本的对比分析 3.3 研究方法 3.3.1 模型的总体设计和实现 3.3.2 实体对之间的关联强度测度 3.3.3 实体对关联强度计算示例 3.3.4 联合模型详细介绍 3.4 实证分析 3.4.1 实验设置 3.4.2 评价指标 3.4.3 实验I:TFH -2020语料库 3.4.4 实验Ⅱ:ChemProt语料库 3.5 本章小结 第4章 主题模型:利用技术分类号辅助专利主题抽取 4.1 引言 4.2 主题模型在专利分析中的应用 4.3 反思 4.4 方法 4.4.1 PC-LDA模型介绍 4.4.2 学习和推导 4.5 模型效果评价 4.5.1 困惑度(perplexity)评价方法 4.5.2 对照技术分类号说明文档的评价方法 4.5.3 对照实体标注的评价方法 4.6 实证分析 4.6.1 困惑度模型评价 4.6.2 对照技术分类号说明文档的模型评价 4.6.3 对照实体标注的模型评价 4.6.4 专利上的主题分配分析 4.7 本章小结 第5章 姓名消歧:让计算机高效、精准地辨别发明人 5.1 相关研究 5.2 PatentsView专利发明人姓名消歧竞赛介绍 5.2.1 数据介绍 5.2.2 评测方法 5.2.3 竞赛结果 5.3 亚军方案:混合记录链接消歧方法 5.3.1 数据预处理 5.3.2 特征选择 5.3.3 划块 5.3.4 混合链接分类器 5.4 冠军方案:判别式层次指代消歧方法 5.4.1 方法概况 5.4.2 Metropolis-Hastings算法 5.4.3 判别式层次指代消歧模型 5.4.4 后话 5.5 本章小结 第6章 语义主路径:让知识演化脉络主题分明 6.1 引言 6.2 相关工作 6.2.1 连线权重计算 6.2.2 候选路径生成 6.2.3 主路径选择 6.2.4 反思 6.3 语义主路径分析方法 6.3.1 连线权重计算 6.3.2 候选路径生成 6.3.3 主路径选择 6.4 实证分析 6.4.1 数据准备 6.4.2 方法选型和超参数调整 6.4.3 主路径选择 6.4.4 讨论 6.5 本章小结 第7章 对比文件查找:知识产权领域的智慧法律实践 7.1 引言 7.2 基础数据介绍 7.3 两阶段专利检索框架 7.4 基于图结构的特征抽取 7.4.1 基于元路径的特征抽取 7.4.2 基于图嵌入的特征抽取 7.5 实证分析 7.5.1 检索召回阶段 7.5.2 精准排序阶段 7.5.3 错误分析 7.6 本章小结 第8章 前瞻:大语言模型时代的专利挖掘研究 8.1 金融大模型竞赛的启发 8.2 大语言模型应用面临的问题 8.3 专利挖掘研究方向探讨 8.4 本章小结 附录一 各类任务上的专利数据集汇总 附录二 PC-LDA推导过程 附录三 DP-BFS算法的空间复杂度推导 参考文献 序言 目标专利的权利要求项给无效掉,这不就实现人工 智能自动判定专利无效了么?一切似乎很简单。但照着 这个思路来,我们的结果始终不行。 直到后来的一件事改变了我的想法。 那是2019年6月24日,我旁观了在清华大学举办的 第三届中国专利检索技能大赛决赛,这是一个国内专利 检索领域顶尖高手齐集的盛会,专利无效的检索和判定 是竞技重点。赛后我意识到,我把专利无效流程想得过 于简单了。 那么一线审查员眼里的专利无效流程究竟是个什么 样子呢? 步骤仍然是专利检索和无效判定两步,但操作和想 象中完全不同。 先说专利检索,照我原来的想法,就是从一次检索 的结果中挑出可能的若干件对比文件就OK了。事实上, 即便对于领域知识和检索经验极其丰富的审查员,一出 手就能写出精确匹配到对比文件的检索条件也是件极其 困难的事情,但一旦找出第一件有效的对比文件,利用 它的信息去查找其他对比文件就会容易很多,换句话说 ,专利检索用的是一种类似探案的方式在查找对比文件 ,难点在于找到突破口,但一旦突破口有了,其他对比 文件的发现只是顺藤摸瓜的事。 再说无效判定,它的原因很多。例如,某项专利的 说明书不支持它的权利要求项,权利要求项中提及的必 要技术特征和当前技术现状之间缺乏必要环节,对比文 件对目标专利的启发作用显而易见等。外加一方面专利 对文字表述要求宽松,如吸尘器可以写成“龙卷风制造 装置”、文件扫描仪被描述为“光线扫描装置”;另一 方面又对文字表述要求极严,如刀片制作工艺中的“切 削”和“冲压”,一词之差,千差万别。用机器学习技 术实现专利无效判定,需要超出专利本身的书面描述, 通过综合常识和领域知识来发现不同技术之间的联系和 区别,而这些早已超出了目前机器学习在专利挖掘上的 研究水平。 虽然现实冰冷,但这并不妨碍我们站在人工智能的 肩膀上,去做一些力所能及的事情,这也构成了这本书 的内容。虽然从形式上说,它是一系列机器学习技术的 汇总,但从内容上说,更多是在智能算法和数据视角下 ,对一些专利挖掘任务的解剖和重新解读。当然,人工 智能和专利数据这对组合所昭示的蓝海极其浩瀚,我们 的研究范围不能覆盖其万一,而现阶段基本成形、可以 写到专著中的内容就更少了。但我也不可能等手头上的 研究都有了明确结论再考虑出书的事,那样的话这本书 将永远完不成,因为走得越远就越会引出精彩的问题, 而之前的研究就会越发显得无足轻重。于是,我决定将 一部分内容先整理出来,至于其他内容,可以以版本更 新或者另起炉灶的方式补充进来。 但即便是这一部分内容,也充斥着各种失败、复盘 、问题诊断和算法迭代更新。毕 竟我们耕耘的是一个横跨知识产权和人工智能两大 学科的交叉领域,我们需要一方面和知识产权从业的人 们一起感受大数据带来的困扰;另一方面紧随人工智能 不断扩大的技术边界,去实时刷新解决这些困扰的可能 性。虽然放眼望去硬骨头俯拾皆是,有些甚至在短期内 看不到解决的希望,但长远来看及早耕耘是必需的,即 便没有坦途,沿着曲径通幽的小路我们依然能做很多事 情,并且在不断深化对问题的认识基础上逼近真实答案 。 这是最好的时代,每天涌现的智能技术和信息资源 都有机会和知识产权服务发生激烈碰撞和融会贯通,并 实现之前认为是不可能的任务。实际上,我们团队面临 的是海量灵感和人丁单薄之间的矛盾。这并不奇怪,在 整个行业要解决的问题面前,一个小小的团队实在微不 足道。但换个角度来说,能在喜欢的事情上去投入、去 思考、去提出问题和寻找答案、去一睹历经曲折才得以 尽收眼底的美景,这本身就是一种极大的乐趣,你经常 有机会去重新审视、反思目前的专利挖掘方法、工具和 实践经验,条件合适时还可以动手建模和实证分析,从 而获得更深刻的理解和启示。但话说回来,这也是一种 折磨,如影随形、无法摆脱,毕竟建模型、推公式、“ 撸”代码、做实验、复盘查错、撰写论文意味着巨大的 工作量和结果并不确定的过程,在正向实验结果出现之 前,甚至在研究成果正式出版之前,研究者始终处于一 种受苦受难的状态:先被科学规律“吊打”,后被审稿 人“吊打”。 但最终这本记录我一个阶段工作的书籍得以完成, 需要感谢的人很多。首先是我的家人,感谢你们的宽容 、理解和支持,我才得以免除家务活的“劳役”,业余 时间宅在家里心安理得地“打电脑”;然后是我的良师 益友张静副研究员、曹燕研究员、雷孝平研究员、贠强 研究员、王弋波副研究员、牟琳高级工程师和魏超博士 ,也许只有被蜗居、内卷、摇号等关键词缠身,才更能 体会跟知识丰富、思维敏捷、豁达开朗且乐于分享的人 共事是一件多么幸运的事;感谢北京工业大学的徐硕教 授、中国人民大学的杨冠灿副教授和山东理工大学的许 海云教授,没有你们,我将在天花板前踯躅相当长一段 时间,而学术探索道路也会少了很多乐趣;感谢姚长青 副所长、桂婕 |
随便看 |
|
霍普软件下载网电子书栏目提供海量电子书在线免费阅读及下载。