知识图谱表示学习和关系推理(2016-2017)(一)知识图谱表示学习及关系推理(2016-2017)(三)

笔者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等国际著名会议被实体关系推理与文化图谱补全的相关论文,供自然语言处理研究人口,尤其知识图谱领域的家参考,如发生误理解的远在请求指出,不胜感激!(如需要转载,请联系本人:jtianwen2014,并注明出处)

笔者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等国际著名会议中实体关系推理与知识图谱补全的连锁论文,供自然语言处理研究人员,尤其知识图谱领域的大家参考,如有错误理解的处在请求指出,不胜感激!(如需要转载,请联系我:jtianwen2014,并注明出处)

ACL 2016

ISGIR 2016

Unsupervised Person Slot Filling based on Graph Mining

  • 作者:Dian Yu, Heng Ji 
  • 机构:Computer Science Department, Rensselaer Polytechnic
    Institute 

本文的任务也槽填充(Slot
Filling),即从常见的语料库中抽取给定实体(query)的吃强烈概念之性(slot
types)的价值(slot
fillers)。对于这个任务,本文叙述目前主流的方好分为两近似:有监督的归类方法,设计分类器识别给定的实体和价值所属的涉嫌项目,分类器的教练往往采取如运动学习、利用距离监督的噪声标注等艺术;模式匹配方法,从文本中活动或半机关地抽取和生成词法或句法的模式,以用于关系的抽取,但为涉嫌所抒发的点子差异,这种模式匹配方法无法拥有比较好之召回率。

正文认为,以上两近似措施还无法充分好之应本着新的言语或出现新的关系项目的情状,即移植性不高;而且,两种方法还止是注意于实体和候选值之前的平缓表示,并没设想到其中间的大局结构关系,以及讲话中任何的关系事实的影响。本文重要的算法思想基于以下简单独着眼:

  1. 于句子的依存图中,触发词结点(trigger)经常是跟实体(query)与价值(filler)结点都坏相关的,并且是祈求中的主要节点;
  2. 当实体(query)与价值(filler)结点通过一个涉显然的触发词强涉嫌起来,往往意味着在一定之涉(slot
    type)。

据悉以上两单观察,本文的提出了同种基于图的槽填充的法门:首先,利用简易的启发式规则,从句子中分辨出候选实体和属于性值;然后,于给定候选实体和属于性值对,利用PageRank图算法和AP(Affinity
Propagation)聚类算法自动识别触发词
;最后,根据识别的触发词对性类型(slot
type)进行分拣。

产图也使PageRank算法对候选触发词结点打分: 

澳门网上娱乐 1 

生图为利用AP算法对候选触发词进行聚类(关系触发词可能无休止一个单词),以选定最终触发词。如下图最终选定“divorced”为末段触发词。 

澳门网上娱乐 2 

作者:本文主要的思以及创新点在于,以性触发词为切入点进行关联的挖掘,将PageRank算法和AP算法引入中,将扇填充问题易为祈求及之打通问题。候选实体和属于性值的分辨、属性类型的归类就有限只有使用了启发式的规则与外表的词典资源。但眼看丁图挖掘的法门,由于用句法依存与PageRank算法有或当算复杂性上设有问题。

Hierarchical Random Walk Inference in Knowledge Graphs

  • 作者:Qiao Liu, Liuyi Jiang, Minghao Han, Yao Liu, Zhiguang Qin
  • 机构:School of Information and Software Engineering, University
    of Electronic Science and Technology of China

——–论文掠影——–

本文面向的职责是基于知识图谱的干推理。本文通过对照考察PRA方法与TransE方法以关系推理上的实行职能并分析由,在PRA基础及提出层次的肆意游走算法HiRi进行实体关系推理。

本文首先叙述了依据知识图谱的涉嫌推理的相关工作,大体分为三种方式:首先是统计关系上方法(SRL),如马尔科夫逻辑网络、贝叶斯网络,但当下类似方发需要规划相应的条条框框,因此并未死好的扩展性和泛化性;嵌入式表示的主意,旨在用实体和事关映射为空间中的向阳量,通过空中受到朝量之演算来开展推理(如TransE),该措施得到了比较好之准确率,但分布式表示的解释性不高,另外,较难以落实并行计算;基于关系路径特征的任性游走模型,该法可以开展并行计算,具有比较好的尽效率,但准确率与召回率相比嵌入式表示学习之方式存在劣势。正文的想法是:是否好计划算法同时落实自由游走模型的执行效率和保留嵌入式表示学习道的准确率?

——–方法介绍——–

正文对TransE方法(嵌入式表示学习的意味)和PRA方法(随机游走模型的象征)进行比,在一对多、一对一、多针对性几近、多对同就四类涉达到开展对照分析:

澳门网上娱乐 3

相比发现:在1:M关系上,PRA远不使TransE;但在M:1提到达到,两者甚类似。有其一情景,正文的率先个比方认为可以知识图谱看做无为图,以这个来规避1:M关系上的弱势。

除此以外,PRA方法在M:M关系达到吗仅仅上了TrasnE方法效果的一半,本文认为随即证明了PRA在多针对几近干达成抽取的门径特征并没充分地运基本上针对性多关系产生的簇中的接连信息(文中有举例说明这或多或少)。相比而言,嵌入式学习的主意由于将文化图谱全局信息编码到向量空间里,所以可以充分利用到这种信息。

每当采用基本上针对多推理关系时,经常会面用到事关之反向,即于尾实体到头实体的可行性,这种推离的不二法门好用odd-hop随机游走模型来建模,基于此本文的第二单假设是:不无拓扑结构的涉嫌明确的簇可能会见包含对推理很有协助的音讯,那么,基于关系上算法的随意游活动得加强推理能力。 

正文提出了一致种植层次化推理的架,共分为三个组成部分:全局推理、局部推理、推理结果融合,结构框图如下:

澳门网上娱乐 4

大局推理是使PRA算法进行推理,以博三元组成立之票房价值\(f(h,r_i,t)\);一部分推理时于一定关系之子图(簇)上计算一个3跳的概率矩阵,以赢得有可能该干的老三初次组概率\(g(h,r_i,t)\),由于是于一个簇上进行的,这是一个有的演绎。众人拾柴火焰高的长河是用一个线性模型对少片段的几率融合,以得到终极之票房价值。

笔者:本文通过分析PRA与TransE的当不同门类涉及及之反差,提出了简单单如,并在这个基础及提出层次化的推理方法HiRi,即于全局和有分别开展关联推理,最终融合在一起获得推理结果。本文在第二单假设的提出上从未有过于起无限多明显的讲,所选的例证和该假设的提出在促进关系达到小牵强,笔者未理清思路。另外,3跨越的因是否来于“关系-关系倒朝-关系”路径,即3越回到原先干?对于假要同一,将波及当做无向的,会带动如何不良后果?前人是否出这面的探赜索隐?

Knowledge Base Completion via Coupled Path Ranking

  • 作者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew
    Lin‡ 
  • 机构†:Institute of Information Engineering, Chinese Academy of
    Sciences 
  • 机构‡:Microsoft Research 

正文的天职为知识库补全,即通过考察知识库中一度有的实况,自动推理出丢失的实际。本文叙述这项任务的计大概分为三栽:

  • Path Ranking
    算法(PRA),通过连续实体的早已发路子来预测实体间的私房关系;
  • 冲表示学习之范,将实体和涉嫌映射为空间受到的向量,通过空中被于量的运算来进行推导(如TransE);
  • 概率图模型,如马尔科夫逻辑网络及其衍生物。

鉴于PRA方法有较好之解释性,并且不需分外的逻辑规则,本文主要以PRA方法对该改良。在行使PRA进行关联推理时,以往的法子都是于演绎等,利用PRA为每个关系独立建模,也便是为每个关系上一个独的分类器。

本文的初衷是:比方应用PRA对一些关乎国有建模是否会获更好的作用,尤其是当这些关系互动紧密联系的时候,比如,“出生”和“生长为”这简单只关系太有或同享有一些事关路径:“国籍->首都”等。很多切磋表明这种多任务上相比单任务上而言,往往有着双重好的意义。本文提出CPRA的法门,该办法所要解决少数只问题:(1)哪些关系需组合在一起学习?(2)如何组合在一起学习?

(1)哪些关系要组合在一起学习?本文提出了同样栽基于公共路径的一般度度量方法,并于这个基础及以干聚成不同之组,同组的关联并学习。公共路径的相似度具体值依据两只关系(或簇)的路径交集数量占据比。

(2)如何组合在一起学习?依循多任务上之格,对于联合训练的分类器使用有限片段参数,即共享参数与个体参数。共享参数可以反映相似关系间的得共性,私有参数用于描述不同关系中的表征。这点儿类参数在训练过程被凡是一头学习之。

笔者:PRA的法门的下或有局限,比如对开放域知识图谱,如Reverb等,其关系项目多样都不事先定义,则无从对每个门类训练分类器;而且这种每个项目训练分类器的计吃其实较生,更非便利让定实体对的关系推理。是否足以合吗一个分类器,或者不是分类器,而是生成器,生成于定实体对的也许涉嫌,这样就是采取为干项目体系未知的开放域知识图谱。

IJCAI 2016

Compositional Learning of Embeddings for Relation Paths in Knowledge Bases and Text

  • 作者:Kristina Toutanova, Xi Victoria Lin∗, Wen-tau Yih, Hoifung
    Poon, Chris Quirk
  • 机构:Microsoft Research
  • 机构∗:University of Washington

本文的任务也知识图谱补全,推理预测实体间暧昧的涉。本文叙述,当前之局部大方用关系路径信息融入到知识库嵌入式表示着,取得了十分肯定的结果。知识库嵌入式表示,指的凡以知识库中实体和涉及映射到低维稠密之长空中,知识的推理转化为实体和关系所波及的向量或矩阵之间的运算。这种嵌入式的表示,操作费较小,推理的频率比高。为了进一步升级基于嵌入式表示的关联推理,一些师将涉及路径信息融入其中。

本文发现,目前底将关乎路径融入知识库的嵌入式表示方法存在如下问题:首先,当干的不二法门总类增多时,时间支付比较生,严重影响推理的频率;另外,目前底方式只有考虑了路径信息,没考虑结点的音讯,即使是相同路线,包含不同结点也享有不同之音。本文提出了相同种植动态规划的章程,可以快速地用关联路径融入到知识库的嵌入式表示,并且以对路线上之涉项目及结点进行表示。

正文为基因调控网络为条例,网络的节点是基因,边也片只关键的干:正调控、负调控,为了一道代表文本信息,将基因共现的文本语句的依存关系嵌入至网络中,所生图所著,红色边也本网络的调控提到,灰色边也文本依存信息:

澳门网上娱乐 5 

着力的文化图谱嵌入式表示学习之计是,首先学实体和关联的向量(或矩阵)表示,然后同用习及的参数\(\theta\)和函数\(f(s,r,t|\theta)\)为可能的老三头条组进行打分。其中,双线性模型(BILINEAR)用矩阵表征关系,向量表征实体,打分函数\(f\)定义为:\(f(s,r,t|\theta)=x_s^{\rm
T}W_rx_t\)。

此外,为了削减参数,本文介绍了其余一样栽模型双线性-对角模型,即将关系矩阵\(W\)替换为对角矩阵。

将涉及路径引入嵌入式表示一般有个别种植办法:(1)利用关乎路径生成辅助的老三老大组用于训练(通过自由游走获得路,端点实体的关系之所以干路径代替);(2)将涉嫌路径作为特色用于打分,打分函数替换为\(f(s,r,t|\theta,\prod_{s,t})\),\(\prod_{s,t}\)为路径上干嵌入式表示的加权求和。对于双线性模型,关系路径\(\pi\)的嵌入式表示一般也:\(\Phi_{\pi}=W_{r_1}…W_{r_n}\)。

本文更偏于吃次栽方式,因为该针对性路线上的涉及进行剪枝。本文对\(f(s,r,t|\theta,\prod_{s,t})\)做了详实计划及定义:用\(F(s,t)\)代表\(\prod_{s,t}\),用\(P(t|s,\pi)\)代表头实体经过路径到达尾实体的几率,令:\(F(s,t)=\sum_{\pi}w_{|\pi|}P(t|s,\pi)\Phi(\pi)\)。最终\(f(s,r,t|\theta,\prod_{s,t})\)定义为:

\[f(s,r,t)=x^{\rm
T}W_rx_t+vec(F(s,t))^{\rm T}vec(W_r)\]

其中\(F(s,t)\)的测算时吃比较充分,本文通过运用动态规划之方法ALL-PATH高效学习和计量该打分函数,使得可以高速地拿关系路径融入到知识库的嵌入式表示,并且同时针对路线上的涉及项目及结点进行表示。本文用参数\(w_{e_i}\)用于表示对由此实体\(e_i\)路径的熏陶,对于双线性模型:\(\Phi_{\pi}=W_{r_1}tanh(w_{e_1})…W_{r_n}tanh(w_{e_n})\)。用\(F_l(s,t)\)表示实体\(s\)和\(t\)之间长度为\(l\)的路的加权和,则有:

\[F(s,t)=\sum_{l=1…L}w_lF_l{s,t}\]

其中,\(F_l{s,t}=\sum_{\pi \in
P_l(s,t)}P(t|s,\pi)\Phi_{\pi}\),\(P_l(s,t)\)表示实体\(s\)和\(t\)之间长度为\(l\)的路径。

动态规划算法如下图所示:

澳门网上娱乐 6 

作者:本文针对过去融合路径信息之嵌入式表示法的年华复杂度进行优化,并进入节点信息,旨在高效运算并融入更充分的音信。本文的方法ALL-PATH在日和效力上优化之前的措施。本文的艺术的兑现冲的是双线性模型,这里应该只是示例,完全可将双线性替换为任何模型,这种涉及路径集成的思考好应用叫广大已经有些嵌入式表示学习方式,所以本文的极致深优点应该在动态规划的提出,用以高效的计算。

From One Point to A Manifold: Knowledge Graph Embedding For Precise Link Prediction

  • 作者:Han Xiao, Minlie Huang, Xiaoyan Zhu
  • 机构:Dept. of Computer Science and Technology, Tsinghua
    University

——–论文掠影——–

正文提出:时下就有些文化表示学习道无法兑现准链接预测,本文认为产生星星点点只原因促成了当时无异景的面世:ill-posed
algebraic problem
adopting an overstrict geometric form

里头,ill-posed algebraic
problem指的是:一个方程组中的方程式个数远高于变量个数。本文为翻译模型也表示叙述这无异题目。翻译的目的是,对知识库的老三头组的嵌入式表示满足\(\boldsymbol {\rm
{h_r+r=t_r}}\),如果三首组的数量为\(T\),嵌入式表示的维度为\(d\),那么一共来\(T*d\)个方程式,而所急需学习的变量一共发生\((E+R)*d\),其中\(E,R\)表示实体和关联项目的数据。由于三老大组的数量多好受实体和涉项目的数目,那么这种翻译模型在严重的ill-posed
algebraic problem问题。

对于一个ill-posed
algebraic系统,所求得的解经常是不准确且无安宁的
,这吗多亏以往方无法进展精确链接预测的由来有。为是,本文提出一个因流形(manifold)的原则,用\(\mathcal{M}(\boldsymbol {\rm
{h,r,t}})=D_r^2\)用来取代\(\boldsymbol {\rm
{h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函数。

此外,对于TransE的艺术,对于给定的头实体和涉,应用为\(\boldsymbol {\rm
{h+r=t}}\),所得到的尾实体几乎是一个沾,这对于多对几近干而言肯定是不正确的,这是千篇一律种植overstrict
geometric
form。前人的一部分法要TransH、TransR将实体和事关映射到部分和涉及相关的子空间中来化解这同样题目,然而,这种题材在子空间中依旧存在。这种过于严格的花样或致引入大量之噪音元素,在链接预测的长河遭到无法准确预测。

正如图所示,越凑圆心组成是三处女组的可能性越来越老,蓝色为正确的答案,红色为噪声,其中TransE的章程无法充分好地别,而本文提出的ManifoldE可以死好的分别噪声数据。

澳门网上娱乐 7

——–方法介绍——–

本文提出用\(\mathcal{M}(\boldsymbol {\rm
{h,r,t}})=D_r^2\)用来替\(\boldsymbol {\rm
{h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函数。打分函数定义为:

\[f_r(h,t)=||\mathcal{M}(h,r,t)-D_r^2||^2\]

对于\(\mathcal{M}\)的概念,其中同样栽为球体呢流形。即对于让定头实体和关联项目,尾实体在向量空间中遍布于盖\(\boldsymbol {\rm
{h+r}}\)为球心的球面上,此时:

\[\mathcal{M}(h,r,t)=||\boldsymbol {\rm
{h+r-t}}||_2^2\]

此地的向量可以以Reproducing Kernel Hilbert Space
(RKHS)映射到Hilbert空间,以更迅速地特色流形。

澳门网上娱乐 8

考虑到球体不易交,而立即或者导致一些实体的损失,本文叙述可以以超平面否流形。即对于让定头实体和事关项目,尾实体位于以\((\boldsymbol {\rm {h+r_{head}}})^{\rm
{T}}\)为主旋律、偏移量与\(D_r^2\)相关的超平面上。在上空中,只要简单只法向量不平行,这简单独超平面就会见起相交。流形函数定义如下:

\[\mathcal{M}(h,r,t)=(\boldsymbol {\rm
{h+r_{head}}})^{\rm {T}}(\boldsymbol {\rm {t+r_{tail}}})\]

本文叙述为了增加为定头实体和关联推理出标准的尾实体数量,对向量绝对值化:

\[\mathcal{M}(h,r,t)=|\boldsymbol {\rm
{h+r_{head}}}|^{\rm {T}}|\boldsymbol {\rm {t+r_{tail}}}|\]

其中,\(|\boldsymbol {\rm
{w}}|=(|w_1|,|w_2|,|w_3|,…,|w_n|)\)。

对于过去方在的ill-posed问题,本文的措施对其比好地解决。以球形为例,本文对于每个三元组只针对承诺一个等式:\(\sum_{i=1}^{d}(h_i+r_i-t_i)^2=D_r^2\),所以要满足\(d\geq \frac {\#Equation}{E+R}=\frac
{T}{E+R}\)。要满足这无异于规范只是待适当增加向量的维度,从而较好之兑现规范预测。

训练之进程是增加正例的分,而减弱多少负例的分数,目标函数如下:

\[\mathcal{L}=\sum_{(h,r,t)\in
\Delta}\sum_{(h’,r’,t’)\in \Delta
‘}[f_r'(h’,t’)-f_r(h,t)+\gamma]_+\]

试结果显示该方式比较好之落实了规范链接预测(hit@1):

澳门网上娱乐 9

笔者:本文提出前的象征学习无法比好的贯彻规范链接预测,并提出造成拖欠问题的有限碰原因:ill-posed
algebraic problem
adopting an overstrict geometric
form
,并对这有限独点问题切中要害提出因流形的代表学习道,实验结果显示该方式比较好之兑现了规范链接预测。

TransG : A Generative Model for Knowledge Graph Embedding

  • 作者:Han Xiao, Minlie Huang, Xiaoyan Zhu
  • 机构:Dept. of Computer Science and Technology, Tsinghua
    University

本文的天职为知识图谱表示学习,旨在将文化图谱映射到低维稠密的向量空间里。与往年研究工作不同,本文将眼光聚焦于“多语义关系”,即和同称呼相的干或具备不同之语义含义,如对涉嫌“HasPart”,对于实体“桌子”和“桌腿”有这种干,对于“英国”和“伦敦”也同有这样的涉,但二者所抒发的意思却不尽相同。

不停于感性层面上,本文对TransE的学识图谱向量表示进行可视化(PCA降维):抽取四栽不同关系,将具备给定关系的实业对向量相减(据TransE思想,可以取得关系的向量),将结果向量展示在二维空间里。理想状态下,对于每个关系应该一味和一个簇遥相呼应,但忠实的结果是每个关系不断一个蔸,而是基本上只肯定分开的簇。这也由其他一个角度证明了关乎之多语义性质。

针对当下同题材,本文提出TransG模型,利用贝叶斯非参数无限混合嵌入式表示模型来挺成涉之多语义表示。TransG可以自动发现涉及的多语义簇,并且以关系之夹语义对实业对开展翻译操作,以进行关联推理。

正文利用了个别独重要的型与算法,分别是贝叶斯非参数无限混合嵌入式表示模型和中餐馆过程算法。切切实实的实体和涉及嵌入式表示生成过程如下:

澳门网上娱乐 10 

经过该过程会落初始化的实业和关系向量,三首先组的起分函数为:

\[\sum_{m=1}^{M_r}\pi_{r,m}e^{-\frac{||u_h+u_{r,m}-u_t||_2^2}{\sigma_h^2+\sigma_t^2}}\]

不同让过去的法子,本文对于涉之描摹更加细化,对于实体对,可以当获得多语义关系之显而易见语义:

\[m_{(h,r,t)}^*=argmax_{m=1…M_r}(\pi_{r,m}e^{-\frac{||u_h+u_{r,m}-u_t||_2^2}{\sigma_h^2+\sigma_t^2}})\]
\[h+u_{r,m_{(h,r,t)}^*}\approx
t\]

上过程是是的正例的分不断增强,负例的分数不断缩减,最终取得实体和涉及的意味。

笔者:本文的切入点是多语义关系存在被知识库中,而前的模子没有观测并解决就同一问题。本文使用非参数贝叶斯模型,借助CRP算法用于对事关大多语义的识别和转变。本文主要的贡献在提出了多语义关系的题材,并凭借CRP解决这同样题目。

Text-enhanced Representation Learning for Knowledge Graph

  • 作者:Zhigang Wang and Juanzi Li
  • 机构:Tsinghua University

正文面向知识图谱的表示学习任务,提出使表面文本中之光景问信帮助知识图谱的意味学习。

正文叙述:TransE、TransH、TransR等方法无法充分好之化解无同等针对性同提到,而且受限于知识图谱的数稀疏问题,基于这个本文提出利用表面文本中的前后问信帮助知识图谱的代表学习。类似距离监督,本文首先以实体回标到文本语料中;以此博得到实体词以及另外重点单词的共现网络,该网络可以当联系知识图谱和公事信息之热点;基于此网,定义实体和涉及的文本上下文,并以该融入到文化图谱中;最后采取翻译模型对实体和涉及之表示进行学习。

生图是一个略的图示:

澳门网上娱乐 11

Representation Learning of Knowledge Graphs with Hierarchical Types

  • 作者:Ruobing Xie, Zhiyuan Liu, Maosong Sun
  • 机构:Tsinghua University

本文面向知识图谱的表示学习任务,提出融入实体类型信息帮助知识图谱的象征学习。

本文叙述:目前之多数道专注于采用知识图谱中三元组结构的意味学习,而忽略了融入实体类型的信。对于实体而言,对于不同之类型含义应该享有不同的意味。本文自Freebase中落实体的类型信息,并拿那层次化表示,并统筹了个别栽编码方式,对于不同之涉通过参数调整取得相应的实体表示。

Knowledge Representation Learning with Entities, Attributes and Relations

  • 作者:Yankai Lin, Zhiyuan Liu, Maosong Sun
  • 机构:Tsinghua University

本文面向知识图谱的代表学习任务,提出采用实体、属性、关系三单元素来拓展表示学习。

正文提出针对性性能和干加以区别,并以表示学习之进程中区分对待,本文首先提出属性与关系之界别,本文叙述:属性的价值一般是纸上谈兵的概念,如性别和职业等;而且通过统计发现,属性往往是大半对同样之,而且对特定的性,其取值大多来自一个微集合,如性别。对涉和特性采用不同之封锁措施开展单独表示学习,同时提出属性之间的重胜似之约束关系。本文想法时,很值得借鉴。

澳门网上娱乐 12

相关文章