知识图谱相关介绍知识图谱概要

204 阅读 0 评论 135 点赞

我是靠谱客的博主怡然发带，这篇文章主要介绍知识图谱相关介绍知识图谱概要，现在分享给大家，希望可以做个参考。

知识图谱概要

概念介绍

什么是知识，知识从哪来

现实世界的语义本体，本体的相关语义，本体的认知层次，本体间的关系，都可以叫做知识

知识从哪里来

结构化文本
wiki，infobox，tables，database，social-net
非结构化文本
互联网，新闻，社交媒体…
图像，视频流

什么是知识图谱

实体-对应现实世界的语义本体
关系-对应本体间的关系，连接了不同类型的实体
属性-描述一类实体的common特性，实体被属性所标注

为什么需要知识图谱

查询理解
- 优化搜索排序
  - 对同名实体进行搜索属性，为什么百度和google给出了不一样的排序结果？
- 特定意图的知识展现
  - 搜索李娜和奥运会，出现了李娜的奥运会名次，还有侧边栏的体育人物展现逻辑
智能问答（KB-QA)
- 知识推理
  - 谓词逻辑和消解原理
    
    一系列推理以后，发现关于李明的假设没有推理出合理命题，最后得假设为假
    ![这里写图片描述])
金融领域
- 反欺诈
- - 智能投顾
社交领域
- 兴趣推荐
- 用户聚类
  - SimRank
    - $S (U 1, U 2) = C | I ( U 1 ) | | I ( U 2 ) | \sum i = 1 | I (U 1) | \sum j = 1 | I (U 2) | S (I i (U 1), I j (U 2))$ $S(U_1,U_2) = frac{C}{|I(U_1)||I(U_2)|}{displaystylesumlimits_{i=1}^{|I(U_1)|}sumlimits_{j=1}^{|I(U_2)|}S(I_i(U_1),I_j(U_2))}$

怎么存储知识图谱

rdf （语义网）

     <?xml version="1.0"?>     
        <RDF>  
        <Description about="http://www.yahoo.com/">  
        <资源作者>Yahoo！公司</资源作者>  
        <资源名称>Yahoo！首页</资源名称>  
        </Description>  
        </RDF>

图数据库

neo4j

    插入  
    CREATE (n:Person { name : 'Andres'});
    删除  
    MATCH (n:Person { name:'Andres' }) 
    DETACH DELETE n; 
    查询  
    MATCH (a:Person { name:'Andres' })-[r]->(b:Person { name:'Taylor' }) 
    RETURN type(r); 
    CREATE CONSTRAINT ON (a:Person) ASSERT a.name IS UNIQUE; 
    MATCH (a:Person),(b:Person) 
    WHERE a.name = 'Node A' AND b.name = 'Node B' 
    CREATE (a)-[r:Follow]->(b); 
    MATCH (a:Person)-[r:Follow]->(b:Person) 
    WHERE a.name = 'Andres' AND b.name = 'Taylor' 
    DELETE r; 
    MATCH (:Person { name:'Taylor' })-[r:Follow]->(Person) 
    RETURN Person.name; 
    创建索引  
    CREATE INDEX ON :Person(name);

titan

Transform
g = TinkerGraphFactory.createTinkerGraph()
g.V().in().outE().toList()
g.V().in().outE().toList()g.v(1).map
g.E.has(‘weight’, T.gt, 0.5f).outV.age.(_).transform{it+2}

Filter
e.outV.outE(e.label).filter{ElementHelper.haveEqualProperties(e,it)}.as('e').inV.filter{it==e.inV.next()}.back('e').except([e])
g.V[0..2].name
g.v(1).outE.and(_().has('weight', T.gt, 0.4f), _().has('weight', T.lt, 0.8f))
g.V.as(‘x’).outE(‘knows’).inV.has(‘age’, T.gt, 30).back(‘x’).age


sideEffect
g.v(1).out.aggregate(x).next()
g.V.groupBy{it}{it.out}.cap

Method
g.addVertex(100)
g.addVertex(null,[name:"stephen"])

知识图谱的关键问题

信息抽取(Infomation Extraction)

什么是信息抽取
从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术
自然语言处理和信息抽取

实体链接(Entity Linking )

问题分类

实体识别
人名，地名，机构名，时间，日期，货币，百分比
子任务:实体边界识别和确定实体类别
开放域实体抽取
实体消歧
如何确定一个实体指称所指向的是真实世界的实体？
- bow方法计算相似度
  $s c o r e (q, e k) = c o s (q . T, e k . T) = q . T , e k . T | | q . T | | | | e k . T | |$ $score(q,e_k) = cos(q.T,e_k.T) = frac{q.T,e_k.T}{||q.T||||e_k.T||}$
  $e ̂ = a r g m a x s c o r e (q, e k)$ $hat{e} = argmax{score(q,e_k)}$
- 加入其特征的分类
  1. 类别共现特征
  2. 文本相似度
  3. 实体本身流行度 $P(e)$
  4. 实体到指代的先验 $P(s|e)$
  5. 实体上下文的先验 $P(c|e)$
- 实体在网页链接上的社会化关系进行聚类消歧
- 基于实体链接的方法
  1. Pairwise
  2. Referent Graph

方法分类

manual-Defining Domain
- 高精度的语义本体
- 高准确的提取算子
- 构建成本高
- 需要业务专家
Sime-automatic
- 本体类型上下位人工定义
- - SSL实现data上的label
  - 用已有类别很容易判断实体类型
  - 可以从现有的语料库中抽取出关系
  - 可以得到较为松散提取语法
Automatic
- 所有名词短语都是实体
- 所有动词短语都是属性
- 频率统计实现挖掘

web实体抽取系统构成

Fetcher
把种子放到相关搜索引擎，把topN的相关页面爬取下来
Extractor
针对单个页面，使用模板抽取候选实例
Ranker
构建种子，网页，模板，候选的相关排序规则，计算候选的置信度

实体链接的评测方法

以指代项准的评测
$A c c u a r c y m i c r o = N u m C o r r e c t N u m Q u e r i e s$ $Accuarcy_{micro} = frac{NumCorrect}{NumQueries}$
以实体为标准的评测
$A c c u a r c y m i c r o = \sum i N u m E n t i t y s N u m C o r r e c t ( E i ) N u m Q u e r i e s ( E i ) N u m Q u e r i e s$ $Accuarcy_{micro} = frac{sumlimits_{i}^{NumEntitys}frac{NumCorrect(Ei)}{NumQueries(Ei)}}{NumQueries}$

关系挖掘(Relation Extraction)

目标-自动识别由一对概念和联系这对概念的关系构成的相关三元组
bootstraping
Distant Supervision
- Matrix Factorization
PRA
Predicate Logic

知识表示（RL)

目标-将研究对象的语义信息表示为低维稠密实值向量,从而可以表示研究对象语义相似度，是一种分布式表示
RL的分布式表示的应用
- 相似度计算
- 知识图谱补全（linking prediction）
- 实体链接
RL的优点：
- 不同于三元组的one-hot表示，可以提升计算效率
- 缓解数据稀疏
- 异质信息融合
RL方法
1. 距离模型(structured embedding, SE)
  $a r g m i n r | | R l h s r i E v (e l i) - R r h s r i E v (e r i) | | 1, w h e r e e i \in R d, R l r i R r r i \in R d x d$ ${argquad min}_r|| R_{r_i}^{lhs} Ev(e_i^l) - R_{r_i}^{rhs} Ev(e_i^r) ||_1, quad where quad e_i in{R^d}, R_{r_i}^l R_{r_i}^r in{R^{dxd}}$
  $s . t . f (e l i, r i, r r i) < f (e l j, r i, e r i), \forall (e l j, r i, e r i) \notin x w h e r e x \in t r i p l e_t u p l e$ $s.t. f(e_i^l, r_i, r_i^r) < f(e_j^l, r_i, e_i^r),quad forall{(e_j^l,r_i,e_i^r)}notin x quad where quad x in triple_tuple$
  $f (e l i, r i, r r i) < f (e l i, r i, e r j), \forall (e l i, r i, e r j) \notin x w h e r e x \in t r i p l e_t u p l e$ $f(e_i^l, r_i, r_i^r) < f(e_i^l, r_i, e_j^r), quad forall{(e_i^l,r_i,e_j^r)}notin x quad where quad x in triple_tuple$
2. 单层神经网络(Single Layer Model, SLM)
  - A word $i$ is then embedded in a $d = sum_k d^k$ dimensional space by concatenating all lookup-table outputs:
    $L T W 1, . . ., W K (i) T = (L T W 1 (i 1) T, . . ., L T W K (i K) T)$ $LT_{W^1},...,W^K (i)^T = (L_TW^1(i^1)T,...,L_TW^K (i^K)T)$
  - A classical TDNN layer performs a convolution on a given sequence $x(·)$ , outputting another sequence $o(·)$ whose value at time t is:
    
    $f r (h, t ） = u T r g (M r, l l h + M r, 2 l t)$ $f_r(h,t） = u_r^Tg(M_{r,l}l_h + M_{r,2}l_t)$
3. 语义匹配能量模型（SME sematic matching energy)
  — 为每个三元组定义两种评分函数
  
  $f r (h, t) = (M l l h + M 2 l r + b 1) T (M 3 L t + M 4 l r + b 2)$ $f_r(h,t) = (M_l l_h + M_2 l_r + b_1)^T (M_3 L_t+M_4 {l^r}+b_2)$
  $f r (h, t ） = （ M l l h \cdot M 2 l r + b 1) T (M 3 L t \cdot M 4 L r + b 2)$ $f_r(h,t） = （M_ll_h cdot M_2l_r + b_1)^T (M_3L_t cdot M_4 L_r + b_2)$
4. 双线性模型(Latent factor model， LFM)
  
  $f r (h, t) = l T h M r l t$ $f_r(h,t) = l_h^T M_r l_t$
5. 张量神经网络模型
  - Represent each entity as the average of its word vectors, allowing the sharing of statistical strength between the words describing each entity，word vectors which are trained on large unlabeled text.
  - Train on relationships in WordNet and Freebase and evaluate on a heldout set of unseen relational triplets
  - Define a set of parameters indexed by R for each relation’s scoring function.
  s.t.g(e1,R,e2)−uTRf(eT1W[1:k]Re2+VR[e1e2]+bR)wheref=tanh,W[1:k]R∈Rk,eT1W[1:k]Re2∈h∈RkVR∈Rkx2d,U∈Rk,bR∈Rk
6. 翻译模型
  - transE
  - 知识库的关系看做实体之间的某种平移向量
    $f r (h, t) = | l h + l r - l t | L 1 / L 2$ $f_r(h,t) = |l_h + l_r -l_t|_{L_1/L_2}$
  - 损失函数
    $\sum (h, r, t) \in s \sum (h', r', t') \in s - m a x (0, f r (h, t) + γ - f r' (h', t')) w h e r e S - = (h', l, t) \cup (h, l', t) \cup (h, l, t')$ $sumlimits_{(h,r,t)in{s}} sumlimits_{(h',r',t') in{s^-}} max(0, f_r(h,t) + gamma - f_{r'}(h',t')) quad where quad S^{-} = (h',l,t) cup (h,l',t) cup (h,l,t')$
  - 缺点
    无法处理复杂关系（1-N，N-1)
  - transH
  - 同时使用平移向量 $l$ 和超平面法向量 $w_r$ 表示
  fr(h,t）=||lhr+lr−ltr||L1/L2s.t.lhr=lh−wTrLhWr,ltr=lt−wTrltWr
  - transR
  - 假设关系和实体处于不同的语义空间中
  fr(h,t）=||lhr+lr−ltr||L1/L2s.t.lhr=lhMr,ltr=ltMr
  - TransD
  - 头尾空间不共享投影矩阵，关系的头尾实体的类型和属性可能差异巨大
  - 投影矩阵与实体和关系均相关
Mrh=lrplThp+Idxk

Mrt=lrplTtp+Idxk
- 损失函数
  
  fr(h,t)=||lhMrh+lr−ltMrt||L1/L2
  - TransG
  - GMM描述模型头尾实体关系，一个关系对应多种语义，每种语义用一个高斯分布刻画
    
    $l t - l h | l r \approx \sum m = 1 M π r, m N (μ r, m, I)$ $l_t - l_h | l_r approx sumlimits_{m=1}^{M}pi_{r,m}N(mu_{r,m},I)$
  - KG2E
- 使用高斯分布表示实体和关系，高斯分布均值表示他们在语义kongjian中心位置，高斯分布协方差表示实体或者关系的不确定性。
- 使用概率分布表示头尾关系
  
  $p e \approx N (μ h - μ t, \sum h + \sum t)$ $p_e approx N(mu_h-mu_t, sum_h + sum_t)$
- 假设关系本身也满足一个分布
  $p r \approx N (μ r, \sum r)$ $p_r approx N(mu_r, sum_r)$
- 使用相对熵定义距离度量
  $f r (h, t) = \int x \in R k e N (x; μ r, \sum r) N (s; μ e, \sum e) d x$ $f_r(h,t) = intlimits_{xin{R^{k_e}}} N(x; mu_r,sum_r)N(s;mu_e,sum_e)dx$