浙江省住房和城乡建设部网站,网络营销去哪里培训,八年级信息技术怎么制作网站,免费发布信息的网站来源#xff1a;集智俱乐部作者#xff1a;丁善一 编辑#xff1a;邓一雪导语目前在互联网的交互框架内#xff0c;用户和消费者只被允许做“有限的表达”#xff0c;比如被设计好的制式问题、按钮、案件、关键词命中等等#xff0c;从而臆测主观诉求#xff0c;然后希望… 来源集智俱乐部作者丁善一 编辑邓一雪导语目前在互联网的交互框架内用户和消费者只被允许做“有限的表达”比如被设计好的制式问题、按钮、案件、关键词命中等等从而臆测主观诉求然后希望可以用“猜你喜欢”的方式留住用户。如何在业务中允许用户或消费者做开放式的表达并能够有能力结合服务者和商品进行因果表征对因果图进行扩充进而规模化地去应对这种开放式的表达是当前智能服务领域面临的挑战之一。7月2日由零犀科技与集智俱乐部共同打造旨在加速人工智能学界和产业界在因果科学领域融合探索的“因果派”论坛成功召开。重庆大学教授、博士生导师刘礼教授围绕栩栩如生的例子介绍了人工智能的进展、与大数据的关系以及目前存在的问题对如何更好的从因果的角度理解和解决实践应用中出现的问题尝试进行解答。1. “浅入深出”介绍因果辛普森悖论有一个典型的例子实验者观察肾病患者的服药情况发现分男女组别考察服药男性和女性的治愈率都分别高于不服药的患者从而能够得出”服药有助于恢复”的结论。但从整体样本考察会发现不服药的治愈率83%高于服药的治愈率78%。图1 辛普森悖论另外一个辛普森悖论的例子关于房价。对比某城市10年前和现在的房价市中心和高新区的房价分别都涨了。但从整体上看现在的房价反而跌了。辛普森悖论虽然不是新提出的但却是各领域不可忽视“顽疾”。在上个世纪90年代人工智能方法大多是专家系统它是基于逻辑、符号或人类知识规则的一套推理方法。在2017年Alpha Go打败人类之后人工智能的方法则几乎完全倒向了基于数据驱动的机器学习方法并且迎来了更广泛的应用比如语音识别、翻译和人脸识别等。在很多场景下会有比较明显的效果但同时面临着产品实现的效果严重依赖于数据的数量和质量的问题。这种分组和整体结论不同的情况也是机器学习模型的困境。例如训练数据和测试数据不满足独立同分布假设Independent and Identically Distributed, I.I.D那么机器学习在分布偏移情况下很难鲁棒地学习在新的场景中很难使用现有的模型。为了进一步理解I.I.D.带来的问题让我们考虑下面的例子。Alice想在网上买一个笔记本电脑包网上商店的推荐系统于是向Alice推荐了笔记本电脑。这个推荐看起来很不合理因为很可能Alice是已经买了电脑才去买包。假设该网站推荐系统使用统计模型仅仅基于统计相关性来推荐那么我们已知事件“Alice买了包”对于事件“Alice是否会买电脑”的不确定性减少和已知事件“Alice买了电脑”对于事件“Alice是否会买包”的不确定性减少是相等的都为两个随机事件的互信息。这就导致我们丢失了重要的方向信息即买电脑往往导致买包。图2 因果关系vs相关关系实际上目前基于数据驱动的机器学习方法训练出的模型所得出的结论大多是变量和变量之间的相关关系而不是因果关系。例如之前有项研究发现在某大国暴力犯罪与腌黄瓜消耗密切相关。也有人发现牛奶喝得越多的国家其获诺贝尔奖的数量就越多。甚至还有人发现尼古拉斯·凯奇每年演的电影数量和每年美国溺亡人数的曲线吻合。但以上的种种相关性并不代表因果性。图3 混淆变量从因果的角度辨析以上所述的几个问题需要考虑混淆变量。混淆变量会同时影响独立变量和因果变量从而造成两者之间的伪相关。如果将传统统计和因果推断进行对比有以下几个特点图4 传统统计和因果推断深入思考其实西方科学的发展史就是因果问题这套真理体系、推理体系我们从小就在学习已知112123可以推导得出1113。当然这套体系也有可能出错例如牛顿定律在地球上适用但在宇宙中就失效从而爱因斯坦提出了相对论。所以存在因果性则一定存在相关性但反之不一定成立。2. 数据驱动迈向可解释性主流数据驱动的机器学习已经非常成功无论是阿法狗还是GPT都带来了惊艳的效果。但有两个缺点没有可解释性、可控性差。图5 因果关系之梯为了解决上述问题图灵奖获得者朱迪亚·珀尔提出因果关系之梯。如上图第一层次是关联通过概率表达描述出观察到的一堆数据。第二层次是干预不仅是观察而且是进行实验改变例如如果吃了阿司匹林我的头痛会得到治愈吗如果我们禁止吸烟将会发生什么其中吃药和禁止吸烟都是干预手段。第三层次是反事实在既定结果已经发生的情况假设当初采取另一方案则会发生什么。反事实不会得到观察数据毕竟不存在两个平行世界但确实经常遇到的情况经典的就是人们常说的“如若当初........就不会......”。图6 反事实问题反事实问题目前非常难解决也有很多例子。黑人被警察控制事件反事实下就对应如若白人被警察控制了会发生什么在影视剧中也常发出如若是另外某个明星参演票房会有什么变化。这些反事实问题没办法验证但需要回答。图7 两套因果模型针对此问题目前有两套主要的因果模型珀尔的结构因果模型罗宾的潜在结果模型。两者都可以预测、干预以及回答反事实问题对于“发现定理知识”目前还不确定是否可行。潜在结果模型可以从数据中学习但与现有知识相结合比较困难。而结构因果模型则相反可以结合现有知识但从数据中学习的能力还亟待进一步检验。在工业界当中哪一套体系更好需要具体问题具体分析和进一步的探讨。目前因果范式有几个问题正在解决因果发现、因果推理。因果发现需要基于已有的数据找出变量和变量之间的因果关系。除了基于约束和基于评分规则的方法之外还有因果表征。表征学习是机器学习中的重要问题联合好的表征是机器学习算法成功的重要条件因为统计学习模型需要I.I.D.假设若测试数据与训练数据来自不同的分布统计学习模型往往会出错。然而在很多情况下I.I.D.的假设是不成立的而因果推断所研究的正是这样的情形如何学习一个可以在不同分布下工作、蕴含因果机制的因果模型Causal Model并使用因果模型进行干预或反事实推断。在因果推理层面珀尔提出了Do算子在因果图上给出了一系列定理和假设用传统的概率表达形式进行操作这就让“因果”变得可计算。除此之外还有反事实计算框架、因果效应评估等等。3. 因果框架符合现实假设在将因果理论落地的工作中在可控图像生成方面目前的图像自动生成很多都是以条件为主的例如给定标签的控制、图像的控制、文字的控制。与当前基于条件的生成方法不同我们研究出三种类型的方法基于已有观察数据、基于潜在变量数据、基于因果干预变量数据。其中因果干预图像合成方法是对相应的变量进行解耦观察变量变化如何导致结果变化从而精准控制图像的某一部分合成。图8 基于结构函数的因果模型此外因果方法在医疗领域有很多应用。特别在疾病归因分析与预测方面我们基于结构函数的因果模型设计了因果发现框架通过超越分子与分子之间的关联性来发现其因果性。具体操作分成两步第一步发现变量和变量之间包括潜变量之间的因果图第二步基于因果图确定明确的结构函数关系。在最具代表性的肿瘤特征选择课题上我们还开发出基于贝叶斯图学习因果模型超越了传统学习函数步骤使用因果图进行描述关系。在人体行为识别方面我们还认为当前的识别手段多是采用传感器和视频流的方式进行会有前后的因果关系。因此可以用格兰杰因果方法解决时序因果中的问题。因果学习作为人工智能领域研究热点之一它更注重支持干预、规划、推理的模型其研究进展与成果也引发了众多关注将因果与深度学习结合很可能是通往多用途AI的必经之路。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”