构建知识图谱

[toc]

1. 概念


1.1. 知识图谱

  • 知识图谱于2012年5月17日由Google正式提出,其初衷是为了提高搜索引擎的能力。随着人工智能的技术发展和应用,作为关键技术之一,已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。

  • 知识图谱,本质上, 是描述实体间关系的语义网络。节点表示实体或概念,边则由属性或关系构成。现在已被用来泛指各种大规模的知识库。

  • 根据覆盖范围而言,知识图谱也可分为开放域通用知识图谱和垂直行业知识图谱。

(点击出处


1.2. 实体 关系 属性 本体 内容


  • 实体
    具有可区别性且独立存在的事物。如图所示“百度”、“阿里”等。
  • 关系
    实体之间的联系。如图所示“竞争”、“合作”。
  • 属性(值)
    属性是对实体和关系的描述;属性值是属性的值。实体一般有属性,比如百度员工数量。关系也可以有属性,比如合作亲密度。
  • 本体
    是语义类(概念),具有同种特性的实体构成的集合,对实体的抽象概括。如图所示的的疾病、症状。
  • 内容
    名字、描述、解释等,可以由文本、图像、音视频等来表达。
  • 三(多)元组
    三元组是知识图谱的一种常用表示方式,即G={E,R,S}。当然也存在复杂的多元关系,比如A在B条件下和C、D、E有关系。

点击出处


点击出处


2. 渊源


点击出处


知识图谱自上世纪60年代从语义网络发展起来以后,分别经历了1980年代的专家系统、1990年代的贝叶斯网络、2000年代的OWL和语义WEB,以及2010年以后的谷歌的知识图谱。谷歌目前的知识图谱已经包含了数亿个条目,并广泛应用于搜索、推荐等领域。

知识图谱的存储和查询语言也经历了历史的洗涤,从RDF到OWL以及SPARQL查询,都逐渐因为使用上的不便及高昂的成本,而被工业界主流所遗弃。图数据库逐步成为目前主要的知识图谱存储方式。

点击出处


现在知名度较高的大规模知识库

点击出处


3. 架构之逻辑结构与构建方式


3.1. 逻辑结构

  • 数据层
    以事实为单位进行存储。
  • 模式层
    构建在数据层之上,是知识图谱的核心,是经过提炼的本体库,通常采用本体库来管模式层。层次结构较强,冗余程度较小。

3.2. 构建方式

  • 自顶向下(top-down)
    先定义本体和数据模式,再将实体加入知识库。利用一些现有的结构化知识库作为其基础知识库。
  • 自底向上(bottom-up)
    从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。

目前,大多数知识图谱都采用自底向上的方式进行构建,其中最典型就是Google的Knowledge Vault和微软的Satori知识库。现在也符合互联网数据内容知识产生的特点。也有自顶向下的,比如Freebase项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。


4. 架构之技术架构与构建技术


4.1. 概述

大体包含五个方面:知识抽取、知识表示、知识融合、知识加工、知识评估

通过知识提取技术,可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素。知识表示则通过一定有效手段对知识要素表示,便于进一步处理使用。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。然后通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识加工则是在已有的知识库基础上进一步挖掘隐含的知识,构建新本体,补全关系,从而丰富、扩展知识库。知识评估可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效确保知识的质量。除此之外,大规模知识图谱构建,还需要多种技术的支持:分布式存储和计算、图数据库、图推理、内存数据库等

点击出处


其他架构方案1:

点击出处


其他架构方案2:

点击出处


4.2. 关键技术之知识抽取


4.2.1. 概述

  1. 抽哪些
  • 实体抽取
  • 关系抽取
  • 属性抽取
  1. 如何抽
  • 文档结构规范化
  • 基于语法的抽取
  • 基于结构的抽取

4.2.2. 实体抽取

实体抽取也称为命名实体学习(NEL)(named entity learning) 或命名实体识别(NER) (named entity recognition),指的是从原始数据语料中自动识别出命名实体。是知识抽取中最为关键的一步。


  • 基于百科,可得到开放互联网中最常见的实体名,但对中低频的覆盖率低
  • 基于垂直类站点,可以获取特定领域的实体
  • 基于规则与词典,依靠专家来编写规则或模板,范围有限,不适应新变化。比如字典辅助下的最大熵算法
  • 基于统计机器学习,更有可扩展性,单纯监督式学习的准确率和召回率不高,故常常与规则学习结合。比如KNN算法+CRF模型。
  • 开放式的实体抽取方法,通过少量的实体实例(种子数据)建立特征模型、聚类分类,再应用于新的数据集得到新的命名实体。比如将实体类别进行分类,并基于CRF模型进行实体边界识别,最后采用自适应感知机算法实现了对实体的自动分类。

基于规则与词典的实体,比如抽取出文本中的人名、地名、组织机构名、特定时间等。有人用到了启发式算法与规则模板相结合的方法。

以上方法有一些具体的文献来论述,可以参看1参看2参看3


4.2.3. 语义类抽取

  • 并列相似度计算,两个词有较高的并列相似度的条件是它们具有并列关系(即同属于一个语义类),并且有较大的关联度。当前主流的并列相似度计算方法有分布相似度法模式匹配法
  • 上下位关系提取,最简单的方法是解析百科类站点的分类信息,但不全;故也用模式匹配。
  • 语义类生成,包括聚类和语义类标定两个子模块。依赖于并列相似性和上下位关系信息来进行聚类和标定。

当前主流的并列相似度计算方法有分布相似度法(distributional similarity) 和模式匹配法(pattern Matching)。分布相似度方法基于哈里斯(Harris)的分布假设(distributional hypothesis),即经常出现在类似的上下文环境中的两个词具有语义上的相似性。分布相似度方法的实现分三个步骤:第一步,定义上下文;第二步,把每个词表示成一个特征向量,向量每一维代表一个不同的上下文,向量的值表示本词相对于上下文的权重;第三步,计算两个特征向量之间的相似度,将其作为它们所代表的词之间的相似度。 模式匹配法的基本思路是把一些模式作用于源数据,得到一些词和词之间共同出现的信息,然后把这些信息聚集起来生成单词之间的相似度。模式可以是手工定义的,也可以是根据一些种子数据而自动生成的。

在英文数据上用Hearst模式和IsA模式进行模式匹配被认为是比较有效的上下位关系抽取方法

以上方法有一些具体的文献来论述,可以参看此处。


4.2.4. 属性和属性值抽取

  • 从百科类站点中提取
  • 从垂直网站中利用规则模板进行包装器(或称为模版)归纳
  • 从网页表格中提取
  • 利用手工定义或自动生成的模式从句子和查询日志中提取

当前从句子和查询日志中提取属性和属性值的基本手段是模式匹配和对自然语言的浅层处理。在只有语义类无关的模式作为输入的情况下,整个方法是一个在句子中进行模式匹配而生成(语义类,属性)关系图的无监督的知识提取过程。此过程分两个步骤,第一个步骤通过将输入的模式作用到句子上而生成一些(词,属性)元组,这些数据元组在第二个步骤中根据语义类进行合并而生成(语义类,属性)关系图。

例如:

  • 将人物属性抽取问题转化为实体关系抽取问题,采用支持向量机算法实现了人物属性抽取与关系预测模型。
  • 基于规则和启发式算法的属性抽取算法,得到了扩展性良好的本体知识库YAGO。
  • 从维基百科网页信息框抽取实体和实体关系信息,得到DBpedia。

以上方法有一些具体的文献来论述,可以参看1参看2参看3


4.2.5. 关系抽取

  • 人工预定义的语法与规则,逐渐被取代
  • 开放式实体关系抽取,可分为二元开和n元开放式关系抽取
  • 基于联合推理的实体关系抽取,典型方法是马尔可夫逻辑网
  • 基于本体推理的深层隐含关系抽取方法,待查

以上方法有一些具体的文献来论述,可以参看1参看2参看3


例如:

  • 利用自然语言中的词法、句法以及语义特征进行实体关系建模,通过最大熵方法实现了不借助规则硬编码的实体关系抽取。
  • 借助知网(HowNet)提供的本体知识库构造语义核函数,在开放数据集上对ACE定义的6类实体关系进行抽取。
  • 基于Bootstrap算法的半监督学习方法,自动进行实体关系建模。
  • 基于Bootstrap算法思想,提出协同训练方法,引入N-Gram特征进行协同训练,实现了对弱监督关系抽取模型的强化。
  • 采用少量人工标记数据作为训练集,得到一个实体关系分类模型,再依据该模型对开放数据进行分类,依据分类结果训练朴素贝叶斯模型来识别“实体-关系-实体”三元组。
  • 引入语法限制条件和字典约束,采用先识别关系指示词,然后再对实体进行识别的策略.
  • 引入上下文分析技术,提出了一个支持非动词性关系抽取的系统。
  • 基于条件随机场的关系抽取模型(H-CRF)的方法。

以上方法有一些具体的文献来论述,可以参看1参看2


4.3. 关键技术之知识表示

4.3.1. 概述

传统的知识表示方法主要是以RDF(Resource Description Framework资源描述框架)的三元组SPO(subject,property,object)来符号性描述实体之间的关系。这种表示方法通用简单,受到广泛认可,但是其在计算效率、数据稀疏性等方面面临诸多问题。近年来,以深度学习为代表的以深度学习为代表的表示学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。

点击出处


目前将知识图谱用于深度学习主要有两种方式,一种是将知识图谱的语义信息输入到深度学习模型中,将离散化的知识表示为连续化的向量,从而使得知识图谱的先验知识能够称为深度学习的输入;另外一种是利用知识作为优化目标的约束,指导深度学习模型的学习过程,通常是将知识图谱中的知识表示为优化目标的后验正则项。

知识图谱的表示学习用于学习实体和关系的向量化表示,其关键是合理定义知识图谱中关于事实(三元组h,r,t)的损失函数fr(h,t),其总和是三元组的两个实体h和t的向量化表示。通常情况下,当事实h,r,t成立时,期望最小化fr(h,t)。

点击出处


4.3.2. 常见的有基于距离和翻译的模型。

基于距离的模型,比如SE模型,其基本思想是当两个实体属于同一个三元组时,它们的向量表示在投影后的空间中也应该彼此靠近。所以损失函数定义为向量投影后的距离,其中矩阵Wr1和Wr2用于三元组中头实体h和尾实体t的投影操作。

基于翻译的模型可以参考前述的TransE, TransH和TransR模型。其通过向量空间的向量翻译来描述实体与关系之间的相关性。

点击出处


4.3.3. 一般的知识表示的方法

  1. 简单模型:1-to-1
  • 距离模型
  • 单层神经网络模型
  • 双线性模型
  • 神经张量模型
  • 矩阵分解模型
  • 翻译模型等
  1. 复杂模型:1-to-N、N-to-1、N-to-N
  • TransH模型
  • TransR模型
  • TransD模型
  • TransG模型
  • KG2E模型

点击出处


4.3.4. 知识表示的前景和应用

当前的知识图谱表示学习方法都还存在各种问题,这个领域的发展也非常迅速,值得期待。

知识图谱的表示转换后,根据不同领域的应用,就可以和各种深度学习模型相结合,比如在自动问答领域,可以和encoder-decoder相结合,将问题和三元组进行匹配,即计算其向量相似度,从而为某个特定问题找到来自知识图谱的最佳三元组匹配。也有案例在推荐系统中,通过网络嵌入(network embedding)获取结构化知识的向量化表示,然后分别用SDAE(Stacked Denoising Auto-Encoder)和层叠卷积自编码器(StackedConvolutional Auto-Encoder)来抽取文本知识特征和图片知识特征,并将三类特征融合进协同集成学习框架,利用三类知识特征的整合来实现个性化推荐。

点击出处


4.4. 关键技术之知识融合

4.4.1. 数据源特点

  1. 从哪来
  • 公开与非公开
  • 单机与分布式
  1. 怎么样
  • 规范与非规范
  • 结构化与非结构化
  • 多媒体与自然语言
  • 冗余与噪音
  1. 如何取舍
  • 权威与错谬
  • 同源与异源
  • 同构与异构
  • 同语种与不同语种

由于知识来源和形式等不同,所以必须要进行知识的融合,做实体对齐、属性矫正、关系矫正、规范化、冲突解决等,使得来自不同知识源的知识在同一框架规范下,达到数据、信息、方法、经验以及人的思想的融合。


4.4.2. 实体对齐

实体对齐 (entity alignment) 也称为实体匹配 (entity matching)或实体解析(entity resolution)或者实体链接(entity linking),主要是用于消除异构数据中实体冲突、指向不明等不一致性问题。在大数据的环境下,受知识库规模的影响,进行实体对齐时可能遇到计算复杂度高和标注数据不足等问题。

  • 成对实体对齐方法
    只考虑两个实体各自属性的相似性;两个实体的属性越相似,两个实体越像。基于传统概率模型、基于机器学习的两大类方法。
  • 局部集体实体对齐方法
    考虑了实体本身的属性以及与它有关联的实体的属性。
  • 全局集体实体对齐方法
    两个实体间的相似也会影响到各自与别的实体的相似性。两类:
    (1)基于相似性传播的集体实体对齐方法,匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性,而这种相似性又会影响关联的其他实体。
    (2)基于概率模型的集体实体对齐方法,主要采用统计关系学习进行计算与推理,常用的方法有LDA模型、CRF模型、Markov逻辑网等。

点击出处


4.4.3. 实体消岐

实体消岐(entity disambiguation)是专门用于解决同名实体产生歧义问题的技术。例如“苹果”可以指水果,也可以指手机。通过实体消岐,就可以根据当前的语境,准确建立实体链接。

实体消岐主要采用聚类法。聚类法消岐的常用方法有4种:1. 空间向量模型(词袋模型);2. 语义模型;3. 社会网络模型;4. 百科知识模型。

点击出处

实体消歧的方法,也可以分为:基于概率生成模型方法、基于主题模型的方法、基于图的方法、基于深度神经网络的方法

点击出处


4.4.4. 共指消解

共指消解(entity resolution)主要用于解决多个指称项对应于同一实体对象的问题。例如“eason”,“陈胖子”,“陈奕迅”等指称项可能指向的是同一个实体对象。代表性的解决方法是Hobbs算法向心理论(centering theory)

点击出处


4.4.5. 知识更新与验证

当引入新知识时,需要判断新知识是否与已有知识是否一致,如果新知识与旧知识间有冲突,那么要判断是原有的知识错了,还是新的知识不靠谱?这里可以用到的证据可以是权威度、冗余度、多样性、一致性等。如果新知识是正确的,那么要进行相关实体和关系的更新。更新有全面更新和增量更新。

知识更新主要是增加、修改、删除知识,包括两大类:

  1. 模式层(本体层)的更新是指本体中元素的更新,包括概念的,概念属性的更新以及概念之间上下位关系的更新等。其中,概念属性的更新操作将直接影响到所有直接或间接属性的子概念和实体。通常来说,模式层的增量更新方式消耗资源较少,但是多数情况下是在人工干预的情况下完成的,例如需要人工定义规则,人工处理冲突等。因此,实施起来并不容易。
  2. 数据层的更新指的是实体元素的更新,包括实体的增加、修改、删除,以及实体的基本信息和属性值。由于数据层的更新一般影响面较小,因此通常以自动的方式完成。

点击出处


4.5. 关键技术之知识加工


4.5.1. 本体构建

本体在知识图谱中的地位相当于知识库的模具,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。本体可通过人工编辑的方式手动构建,也可通过数据驱动自动构建,然后再经质量评估方法与人工审核相结合的方式加以修正与确认。

在海量的实体数据面前,对于跨领域的全局本体库而言,采用人工方式工作量巨大,而且很难找符合要求的专家。因此当前主流的全局本体库产品,都是从一些特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。

数据驱动的本体自动构建过程主要可分为以下3个阶段:(1)纵向概念间的并列关系计算;(2)实体上下位关系抽取;(3)聚类分类与本体生成。

点击出处


4.5.2. 知识推理与补全

知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而扩展和丰富知识网络。例如已知(A,爸爸,B)和(B,爸爸,C),可以推理出(A,爷爷,C)。知识推理的对象不局限于实体间的关系,也可以是实体的属性值、本体的概念层次关系等。例如已知(老虎,科,猫科)和(猫科,目,食肉目),可以推出(老虎,目,食肉目)。

知识推理和补全主要体现在三方面:实体关系学习的目的是学习知识图谱中实例和实例之间的潜在关系,比如双线性模型,张量分解模型,基于归纳逻辑程序(ILP)的方法,基于关联规则挖掘(ARM)的方法和路径排序(path ranking)的方法;类型推理目的是学习知识图谱中的实例和概念之间的属于关系,比如利用三元组主语或谓语所连接属性的统计分布以预测实例的类型;模式归纳学习概念之间的关系,主要有基于ILP的方法和基于ARM的方法。

点击出处


4.5.2.1. 一般知识推理方法

  • 基于符号逻辑的推理,主要包括一阶谓词逻辑、描述逻辑以及基于规则的推理。
  • 基于图的推理,主要是基于神经网络模型或Path Ranking算法。
  • 基于统计推理的方法,比如双线性模型,张量分解模型,基于归纳逻辑程序(ILP)的方法,基于关联规则挖掘(ARM)的方法,利用三元组主语或谓语所连接属性的统计分布以预测实例的类型。

点击出处1

点击出处2


4.5.2.2. 空间变换式的知识推理

知识图谱的补全是通过现有知识图谱来预测实体之间的关系,是对关系抽取的重要补充。传统方法TransE和TransH通过把关系作为从实体A到实体B的翻译来建立实体和关系嵌入,但是这些模型仅仅简单地假设实体和关系处于相同的语义空间。而事实上,一个实体是由多种属性组成的综合体,不同关系关注实体的不同属性,所以仅仅在一个空间内对他们进行建模是不够的。

因此我们尝试用TransR来分别将实体和关系投影到不同的空间中,在实体空间和关系空间构建实体和关系嵌入。对于每个元组(h,r,t),首先将实体空间中的实体通过Mr向关系r投影得到hr和tr,然后是hr+r ≈tr。特定的关系投影能够使得两个实体在这个关系下真实地靠近彼此,使得不具有此关系的实体彼此远离。

点击出处


4.5.2.3. 张量表示下的知识推理

知识图谱推理中还经常将知识图谱表示为张量tensor形式,通过张量分解(tensor factorization)来实现对未知事实的判定。常用于链接预测(判断两个实体之间是否存在某种特定关系)、实体分类(判断实体所属语义类别)、实体解析(识别并合并指代同一实体的不同名称)。

常见的模型有RESCAL模型和TRESCAL模型。RESCAL模型将整个知识图谱编码为一个三维张量,而TRESCAL则是解决在输入张量高度稀疏时所带来的过拟合问题。路径排序算法也常用来判断两个实体之间可能存在的关系,比如PRA算法。


RESCAL模型的核心思想,是将整个知识图谱编码为一个三维张量,由这个张量分解出一个核心张量和一个因子矩阵,核心张量中每个二维矩阵切片代表一种关系,因子矩阵中每一行代表一个实体。由核心张量和因子矩阵还原的结果被看作对应三元组成立的概率,如果概率大于某个阈值,则对应三元组正确;否则不正确。

点击出处


4.6. 关键技术之知识评估

  • 关于实体质量和范围的评估
  • 关于推理能力的评估
  • 根据业务定义的评估

5. 知识存储与数据库选择


5.1. 存储方式

知识存储的主流存储方式是图数据库,但具体实施时需要根据具体的业务需求来选择存储方式,各种存储方式的特点:

1、关系型数据库存储三元组表(S,P,O)
类似RDF存储结构,以元组为单元进行存储。语义较为明确。

问题:

  • 大量自连接操作的开销巨大

2、关系型数据库存储属性表
属性相似的主语聚为一张表,类似关系型数据结构,每一条数据代表一个实体,每一列代表一个属性。

问题:

  • RDF灵活性(高于一阶的关系查询很复杂)
  • 查询时必须指定属性,无法做不确定属性的查询

3、关系型数据库存储垂直分割
以谓语划分三元组表,根据属性的不同建立数据表,数据结构较为清晰

问题:

  • 大量数据表
  • 删除属性代价大

4、关系型数据库存储RDF存储
专为存储三元组形式的数据而设计的专用数据库,通过六重索引(SPO、SOP、PSO、POS、OSP、OPS)的方式解决了三元组搜索的效率问题

优点:

  • 三元组模式查询(triple pattern)的高效执行
  • 任意两个三元组模式的高效归并连接(merge-join)

缺点:

  • 六重索引意味着6倍空间开销
  • 更新维护代价大

5、图数据库存储
图数据库的结构定义相比RDF数据库更为通用,实现了图结构中的节点,边以及属性来进行图数据的存储,典型的开源图数据库就是Neo4j。

优点:数据库本身提供完善的图查询语言、支持各种图挖掘算法,缺点:图数据库的分布式存储实现代价高,数据更新速度慢,大节点的处理开销很高。

6、时态数据存储
知识图谱中的时态信息包含以下四个方面:

  • 事实的生成时间;
  • 某事实的有效时间段;
  • 某一对象在特定历史时刻的状态;
  • 知识图谱在过去特定时间的版本;

点击出处


5.2. 存储原则

为了计算、查询等速度的优化,需要不同的存储方式相结合。

  • 关系型数据:使用图形数据存储
  • 关联型数据:作为记录型数据存入合适的存储中,通过实体链接与图谱中实体关联。
  • 属性型数据:作为实体的数值属性存入知识图谱
  • 时态型数据:使用基础存储上的时态处理中间件进行存储与查询

点击出处


5.3. 各类数据库比较和发展趋势

图数据库、NOSQL、Neo4j

2017知识图谱存储系统排名

大规模知识图谱数据存储-Final


点击出处


点击出处


点击出处


点击出处


5.4. 图数据库比较

开源图数据库有:Neo4j、Twitter的FlockDB、sones的GraphDB、基于Java实现的InfiniteGraph等。除此之外,还有其他一些图形数据库,如ArangoDB、OrientDB、InfoGrid和HypergraphDB。Ravel构建在开源的Pregel实现之上,微软研究院的Trinity项目也是一个图形数据库项目。

现在的开源图形数据库有哪些?

主流图数据库Neo4J、ArangoDB、OrientDB综合对比:架构分析

The GraphDB Landscape and sones

nosql图数据库的比较


点击出处


5.5. neo4j

Neo4j 新手入门指南

CSV导入neo4j: use import tool

CSV导入neo4j: use load

Neo4j Bloom

用vis.js库实现Neo4j的可视化

用cytoscape.js展示neo4j网络关系图


5.6. 超图

超图(一边多点):Sones, HyperGraphDB , Trinity

超图理论的一点理解


6. 应用和案例


6.1. 应用领域

  • 智能搜索
  • 深度问答
  • 社交网络
  • 垂直行业:金融、医疗

具体参看知识图谱构建技术综述-许增林-盛泳潘


6.2. 案例

三种知识图谱:Knowledge Graph、Freebase、Wikidata

语义搜索

开放知识图谱DBpedia、Yago、Wikidata、BabelNet、ConceptNet以及Microsoft Concept Graph,还有OpenKG


股票投研情报分析

点击出处


公安情报分析

点击出处


反欺诈情报分析

点击出处


6.3. 商业公司

知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架

  • 唯品金融大数据
  • PlantData知识图谱数据智能平台
  • 拍拍贷图数据库技术
  • CN-DBpedia
  • OpenKG.CN——开放的中文知识图谱
  • 楚辞
  • 海致大数据
  • 腾讯云星图
  • 网感至察

点击出处


  • 复旦大学 Knowledge Works
  • 思知(OwnThink)
  • Zhishi.me
  • 交大的Acenap
  • 清华大学的openKE
  • 自然语言处理工具包HanLP
  • scikit-kge: MIT知识图谱embedding工具包
  • RDFox: 牛津大学的知识库推理工具(推荐)
  • 中国知网
  • 浙江大学:创新设计产品库
  • 中草药知识服务系统
  • 中国工程科技知识中心
  • NLPIR
  • 开放域中文知识图谱《大词林》

点击出处


7. 总结


知识图谱是知识工程的一个分支,以知识工程中语义网络作为理论基础,并且结合了机器学习,自然语言处理和知识表示和推理的最新成果,在大数据的推动下受到了业界和学术界的广泛关注。知识图谱对于解决大数据中文本分析和图像理解问题发挥重要作用。目前,知识图谱研究已经取得了很多成果,形成了一些开放的知识图谱。但是,知识图谱的发展还存在以下障碍。首先,虽然大数据时代已经产生了海量的数据,但是数据发布缺乏规范,而且数据质量不高,从这些数据中挖掘高质量的知识需要处理数据噪音问题。其次,垂直领域的知识图谱构建缺乏自然语言处理方面的资源,特别是词典的匮乏使得垂直领域知识图谱构建代价很大。最后,知识图谱构建缺乏开源的工具,目前很多研究工作都不具备实用性,而且很少有工具发布。通用的知识图谱构建平台还很难实现。

点击出处


8. 延伸阅读


大规模知识图谱数据存储-Final

超图理论的一点理解

知识图谱基础之RDF,RDFS与OWL


9. 参考资料


9.1. 主要参考资料

最全知识图谱综述: 概念以及构建技术

大规模知识图谱的构建、推理及应用

知识图谱构建技术综述-许增林-盛泳潘

知识图谱构建技术综述-刘峤-李杨

知识图谱构建技术综述

知识图谱怎样入门

知识图谱研究进展

2017知识图谱存储系统排名

nosql图数据库的比较

大规模知识图谱数据存储-Final

知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架

9.2. 其他参考资料

超图理论的一点理解

现在的开源图形数据库有哪些?

主流图数据库Neo4J、ArangoDB、OrientDB综合对比:架构分析

The GraphDB Landscape and sones

nosql图数据库的比较

三种知识图谱:Knowledge Graph、Freebase、Wikidata

语义搜索

开放知识图谱DBpedia、Yago、Wikidata、BabelNet、ConceptNet以及Microsoft Concept Graph,还有OpenKG

知识图谱基础之RDF,RDFS与OWL

知识图谱(Knowledge Graph)专知荟萃


Donate comment here
xiaotiandi 微信支付

微信支付

xiaotiandi 支付宝

支付宝

xiaotiandi

公益(commonweal)微信