图神经网络近期成为各大顶会的增长热词,即将大火的必然是图计算,知识图谱是图计算相对成熟的案例。
起源
知识图谱(KnowledgeGraph)概念始于google在2012年提出,主要是为了将传统的keyword-base搜索模型向基于语义的搜索升级。以便来更好的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。
概念
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体关系实体”三元组,以及实体及其相关属性键值对,实体间通过关系相互联结,构成网状的知识结构。
本质上,知识图谱是一种揭示实体之间关系的语义网络,用“属性--值对“来刻画它的内在特性。三元组是知识图谱的一种通用表示方式,基本形式主要包括实体1、关系、实体2和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。上图姚明和叶莉分别是两个实体,年龄、身高、体重是实体属性,连接的线就是关系。
知识图谱架构主要部分:
知识抽取(包括实体抽取、关系抽取以及属性抽取等)
知识融合(包括实体消岐等)
知识加工(包括本体构架、知识推理等)
知识更新。
知识库
目前可以分为两种类型:CuratedKBs和ExtractedKBs
CuratedKBs:以yago2和freebase为代表,他们从维基百科和WordNet等知识库抽取了大量的实体及实体关系,可以把它理解成一种结构化的维基百科。
ExtractedKBs:主要是以OpenInformationExtraction(OpenIE),Never-ingLanguageLearning(NELL)为代表,他们直接从上亿个网页中抽取实体关系三元组。与freebase相比,这样得到的实体知识更具有多样性,而它们的实体关系和实体更多的则是自然语言的形式,如“姚明出生于上海。”可以被表示为(“YaoMing”,“wasalsobornin”,“Shanghai”)。直接从网页中抽取出来的知识,也会存在一定的噪声,其精确度低于CuratedKBs。
知识图谱的应用
应用主要集中在搜索与推荐领域,robot(客服机器人,私人助理)是问答系统,本质上也是搜索与推荐的延伸。企查查和启信宝这等企业使用图结构的数据比较好清洗加工特性用于知识存储。
语义搜索这一块,知识图谱的搜索不同于常规的搜索,常规的搜索是根据keyword找到对应的网页集合,然后通过pagerank等算法去给网页集合内的网页进行排名,然后展示给用户;基于知识图谱的搜索是在已有的图谱知识库中遍历知识,然后将查询到的知识返回给用户,通常如果路径正确,查询出来的知识只有1个或几个,相当精准。
问答系统,系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析,进而转化成结构化形式的查询语句,再在知识图谱中查询答案。
参考资料: