AI医药论文解读--SmileGNN：基于SMILES和GNN的药物相互作用预测SmileGNN：基于SMILES和GNN的药物相互作用预测

3936 阅读 0 评论 2598 点赞

我是靠谱客的博主甜甜黄豆，这篇文章主要介绍AI医药论文解读--SmileGNN：基于SMILES和GNN的药物相互作用预测SmileGNN：基于SMILES和GNN的药物相互作用预测，现在分享给大家，希望可以做个参考。

SmileGNN：基于SMILES和GNN的药物相互作用预测

论文题目	SmileGNN: Drug-Drug Interaction Prediction Based on SMILES and Graph Neural Network
论文出自	Research Article（Preprints）,June 10th, 2021

论文链接：SmileGNN

文章目录

SmileGNN：基于SMILES和GNN的药物相互作用预测
- - 一、SmileGNN模型？
  - 二、各模块详细介绍？
  - 三、实验？
  - 四、思考？

一、SmileGNN模型？

SmileGNN：利用SMILES数据构造药物的结构特征。利用图神经网络得到知识图中药物的拓扑特征。聚合药物的结构和拓扑特征以预测新药对的相互作用。（阈值0.5，以此分类为存在DDI或不存在DDI）

二、各模块详细介绍？

药物结构特征

数据库：DrugBank。

SMILES可以用一串字符描述三维化学结构，如图是药物亚叶酸及其相应SMILES的二维图形。

SMILES2Vec方法是将自然语言处理中的Seq2seq技术应用到SMILES字符串中，将化学结构信息作为深度神经网络的输入变量来预测化合物的物理性质。SMILES2Vec在预处理过程中删除一些长的 SMILES ，并对剩下的 SMILES进行独热编码。**将每个SMILES转换为长度为26的向量。**根据这种预处理方法，对药物的化学结构进行了预处理。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tXzFiLwE-1638878663613)(D:DBLabMyNoteTyporaImagesimage-20211205194911636.png)]

药物拓扑特征
- KG的构造
  
  利用两个数据库中的数据构建KG，获得相应数据库中药物的拓扑特征。
  - KEGG
  - PDD
  RDF（资源描述框架）Bio2RDF项目提供了将数据转换为n-quads或其他RDF格式的工具。然后，使用RDFlib库解析这些n-quads数据，并将它们以便于后续KG生成嵌入特征的格式划分为三元组（实体、关系、实体），如图3所示。
  
  [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XskQ0LnG-1638878663613)(D:DBLabMyNoteTyporaImagesimage-20211130102152433.png)]
  
  引入一个度量来评估KG。密度用于描述图/网络中节点之间的边连接密度。对于有L条边和N个节点的图G，密度计算公式：
  分别用KEGG和PDD构建了两个KG。
  从表中可以看出，KEGG数据集中的药物种类较多，但图形本身相对稀疏，具有结构记录的药物比例相对较低。PDD数据集的药物类型较少，但图形更密集，具有结构记录的药物比例更高。
- 拓扑特征的提取
  
  通常使用KG预测DDI的模型只能捕获小范围内的数据信息。**为了扩大邻居域，获取KG中丰富的实体信息，探索药物与其他实体之间的潜在相关性，提出了KGNN模型。**KGNN通过GNN提取药物的高阶结构和语义关系，通过KG图学习药物和药物邻居的表示。
  
  对于每个实体，该模型从实体的域中提取多个实体，并聚合这些实体的信息以形成实体的拓扑特征表示。实体聚合方法有三种：和聚合是一种叠加操作，连接是一种连接操作，邻居只考虑邻居而不考虑节点本身的信息。这三种聚合方法缩写为sum、concat和neigh。