华容网站建设,给个网站好人有好报,小说网站静态模板,网站定制设计师转载公众号 | DataFunSummit分享嘉宾#xff1a;黄柯鑫 斯坦福大学 博士生编辑整理#xff1a;元玉蒲 西北大学出品平台#xff1a;DataFunTalk导读#xff1a;大家好#xff0c;我叫黄柯鑫。我现在是斯坦福大学的计算机科学博士第一年级#xff0c;研究方向是机器学习在… 转载公众号 | DataFunSummit分享嘉宾黄柯鑫 斯坦福大学 博士生编辑整理元玉蒲 西北大学出品平台DataFunTalk导读大家好我叫黄柯鑫。我现在是斯坦福大学的计算机科学博士第一年级研究方向是机器学习在生物医疗的实际应用场景方面的挑战。本次分享题目为分子网络中的图机器学习主要介绍图机器学习在生物系统图上的应用。人体的很多功能是由复杂的小的生物实体进行反应比如说话、吃东西的背后有各种细胞在工作。比如在吃东西的时候食物会引起一系列的信号到细胞激发一系列的反应翻译为蛋白质不同的蛋白质合作形成功能如果某些基因不工作会引起疾病。生物医疗领域是一个非常复杂的图生物实体有蛋白质、RNA、药物、疾病等实体之间的链接代表关系设计药品解决有问题的蛋白质。生物医学是一个多尺度的网络现在有很多知识图可以回答一些生物问题。如果想知道这能不能解决病即要预测药和疾病会不会有反应。如果预测是高质量的就可以解决在传统的生物领域要花费很长时间的问题达到加速解决过程的目的。今天我会从下面的5个方面讲图机器学习在生物系统中的方向和实际应用。01将GNN应用于分子网络时的特殊考虑第一个我会讲GNN应用到生物系统上需要注意的地方。GNN开始训练的时候利用homophily principle的性质即相邻节点的性质相似。把邻居节点传给中心目标节点在信号处理角度就是促进节点的embedding保持一致。这个性质适合于social网络但并不适合于molecular网络。Direct similarity指的是social网络节点之间的边代表similarity但生物网络不是这样的。举个例子药A和目标连接会反应但是药A和目标不是同一类型所以药A和目标的embedding不同。假如药A和药B同时和目标反应药A和药B不会反应但具有相似的embedding标准GNN具有这样的特征。所以我们提出了SkipGNN将药A和药B连接在一起同时将药A、药B与目标的边断开。在新的图上做GNN会促进连接的节点相似间接达到了促进Skip similarity。实验结果发现SkipGNN的效果相比DTI、DDI、PPI、GDI得到提高。我们还找到了一些基于SkipGNN的药但无法用在其他方法。在传统的GNN中基因和药是混在一起的。但是我们想要分离基因和药SkipGNN是可以达到这样的效果。第一部分我想强调的一点是在从传统GNN到生物图不能直接应用因为生物系统图和其他网络相比有很多不同的性质。在这其中也有很多机会发现生物图的性质去设计新的图机器学习的方法。02生成可操作的假设之前我们注重的是如何做预测但更加重要的是如果生物科学家不懂机器学习是不会相信AI模型产生的东西所以要产生更多的信息。生物学家需要的是一个假设因为蛋白质和基因有关系所以蛋白质和药可以有反应这才是生物学家更加感兴趣的东西。我们研究的一个问题就是Drug-Drug InteractionDDIDDI是两种药物共同起效时造成药效的改变。在美国每年大概有20万次住院就诊。为什么DDI会是一个问题FDA批准3568种药其中有超过100种相互作用的类型2种药物的DDI有3568×3568×1001273062400种更不要说多种药物的DDI。不可能在体外实验中验证更不用说严格的临床试验了我们可以输入药物的信息到机器学习模型中就可以计算出各种DDI类型。我们不仅仅想做预测还想产生推理路径和可操作的假设。在系统生物图上聚焦到2种药物这2种药物有很多连接节点就可以找到节点的关系就可以分析药物的反应。这是非常好的图示2个感兴趣的节点Melatonin和Thiamine输入到生物网络里提取到子图。预测边对于prediction是否重要若重要则予以保留用保留的边做最后的预测经过不断训练得到的边就是推理路径。SumGNN的实验结果也非常不错。比如我们感兴趣的是Paroxetine和Hydroflumethiazide的2种节点绝大部分边已经被去掉。当同时吃上面2种药的时候Orthostatic hypotension和Aplastic anaemia这2种疾病的发病率会提高。 03在更深层次使用GNN——领域科学家的视角第3部分我们更加往领域科学家使用的角度去思考不仅仅有解释、预测、可操作的假设更重要的是接口是什么GNN在生物方面的目标是生成模型的预测和解释让领域科学家更好地理解AI的解释结果。我们最近的工作是和一些专门做HCIHuman-Computer Interaction的学者合作研究根据不同的Graph XAI展示给用户。我们提出了3种方法Neighbor Nodes分别提取疾病和药物中重要的基因逐渐细分并构造树结构。Subgraph构造节点之间的知识图通过去掉或保留边找到节点之间的连接关系。Paths模拟领域科学家思考药物和疾病之间的关系提取节点之间的路径可以发现第3种方法更好。如何展示给领域科学家是非常重要的。 04少数据转化生物医学图第4部分我想讲一个具体的应用在少数据量的前提下用图的方法做转化生物医学。我们最感兴趣的是人类的问题但是我们在实验的时候不可能直接用于人类而是使用小白鼠、猴子。如何从其他动物转换到人类身上就是一个重要的问题因为动物模型和人类模型是存在差异的。生物是一个少数据的问题实验也是非常昂贵的所以Few-shot learning是非常重要的事情。GNN可以获取20%~30%的节点传统的GNN是无法学习的。综合刚提到的2个挑战如何根据少数的标签生成从未见过的图是一个问题。Meta Learning就可以很好地解决这个问题我们把它抽象成3个问题第1个问题有1个图和不同的label set如何从已知的label得到未知的label是一个问题。第2个问题有相同的label和不同的图如何根据某几种物种的图生成人类的图是一个问题。第3个问题是前2个问题的结合体有不同的图和不同的label。我们提出了一个方法叫G-Meta用一个简单的思路有效地解决上面的3个问题。已知有不同的图对于每个节点提取子图利用子图之间的相似性进行GNN学习。前人的一些方法只能解决一部分的settings但是我们的G-Meta方法可以解决全部的settings。G-Meta可以适用于非常大的图因为我们提取子图并且只需要考虑子图这部分。05治疗发现中的图机会最后我想讲一下在治疗发现方面我们团队的解决方法。现在小分子药非常多效果也比较好。但是小分子药的数量逐年在下降有新的抗体药物能解决一些小分子药无法解决的问题比如抗体药、中药、疫苗、基因编辑、CAR-X、数字治疗等。这里具体举一些图的例子比如分子图、蛋白质图、细胞关系网、知识图等非常多的图被使用得很少。找到有意义的治疗发现的数据集有助于使用上面的图。我们最近的工作是治疗学数据共享TDC来解决这个问题TDC有基于22个学习任务的66个learning-ready数据集、开发工具、库、排行榜和社区资源的生态系统包括数据方法、系统模型评估策略、有意义的数据分割、数据处理器和分子生成预测。TDC覆盖了治疗学机器学习的生活圈。我们提供了22个tasks从而解决了制定有效的治疗学机器学习任务。66个ML-ready数据集包含15919332个数据点可以直接使用处理好的数据。训练机器学习模型我们提供了一些数据方法如数据分割、分子生成预测、数据处理等。评估模型性能。与最先进的相比。只需要3行代码就可以下载到数据。这是一个数据方法的例子比如想从SMILES转换到DGL的图用3行代码就可以实现转换。这是TDC的简介和连接。今天的分享就到这里谢谢大家。分享嘉宾OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。