李玉箫：打开深度学习黑盒，进一步理解AI-上海职学科技有限公司官网

李玉箫：打开深度学习黑盒，进一步理解AI

深度学习发展至今，带来了人工智能（AI）的发展热潮。现实情况是由于核心AI算法，尤其是深度学习算法，通常运行在类似于“黑盒”中的工作模式下，使得AI在高效高性能的同时，相应的可解释性很难得到同等保证。

本期马德里欧洲大学（UEM）计算机公开课的分享主题为《深度变分推断框架下的无线感知与AI可解释性》，分享嘉宾李玉箫为清华大学电子工程系的在读博士，研究方向为深度变分推断理论和算法框架，针对包含复杂分布的推断问题，结合深度学习和变分推断方法，设计新的算法方案，主要应用于5G、6G的无线感知技术以及AI的可解释性。

李玉箫介绍

· 清华大学电子系信息与通信工程方向博士在读

· 目前在巴斯克应用数学研究所访学

· 发表过十余篇所在领域顶刊顶会文章

· 国内外多个大厂、研究组织实习经历

李老师将从自己博士论文的研究课题入手，联系行业火爆的ChatGPT，带领我们探索深度学习的黑盒。以下为李老师的讲述——

深度学习的背景知识——统计推断

计算机专业会较多接触概率论与数理统计，其中贝叶斯推断由来已久。它能做很多预测问题，比如说天气预测，是否下雨、湿度温度等；学术一点的，可以进行基因癌症的诊断。

同时，传统推断也面临着现代挑战。伯努利分布是机器学习中的常用分布，比如说我掷一个硬币，正反面的概率都是二分之一，该随机变量满足伯努利分布。目前更为复杂的问题是，深度学习涉及图像、音视频等信息，那传统的高斯分布或伯努利分布这些简单的参数化分布，就不易解释，即难解分布（ intractable distributions）。

主要有以下三种表现：

一是隐式分布具有难解分布。就无线感知应用而言，室外容易定位，能测出距离；室内由于多径效应影响，有桌子等障碍物的反射波，就不易观测。

二是目标变量具有难解分布。就无线感知而言，例如环境分析就是这样一个问题，比如我站在画廊，想知道自己的周围环境，譬如障碍物、房间结构，这时环境变量的分布是难解的，无法像距离一样去物理定义。

三是隐变量具有相互依赖关系。例如无线感知中的多智能体协作定位，多个智能体提供的信号之间俱有耦合关系，对于推理结果有影响，可以做更复杂的图推理。

无线感知与AI可解释性

结合深度学习的数据知识，以及传统推断的模型知识，让我们可以解读复杂信息。举个例子：

问：“我到最近柱子的距离是多少？”那么，传统统计推断的物理模型就可以解读，通过识别波峰，用电磁波的传播速度乘以时间就能知道距离；

如果问：“这幅图的场景有哪些？”图像信号是隐式的，无法建模，无法多步推理，这时通过深度学习可以解出；

又问：“如何判断我的位置和周围环境的关系？” 这时候需要分析多径信号与复杂场景的关系，用到统计推断和深度学习，破解位置和场景的关系。

我的研究领域侧重无线感知，在对环境感知后，结合各类其他技术，如AI进行后续的处理，实现对物理环境的重建，对环境进行分析，对环境中的人与物进行识别、分析，触发后续的动作等。

深度变分推断框架是什么？

谈及深度变分推断框架（Deep Variational Inference Framework），主要分为三类。

第一类是易解概率（Tractable Likelihood）和独立潜在变量( Independent Latent Variables) 。比如说盲图像超分（Blind Image Super-resolution），旨在对未知退化类型的低分辨率图像进行超分增强，由于其对于实际应用的重要促进作用而受到越来越多的关注。主要分为显示建模（Explicit Modelling）和隐式建模（Implicit Modelling）两类方法，目前最新的方法BSRGAN，通过对多种模糊核、下采样、噪声退化进行随机置换，在不同类型真实退化数据上取得了非常好的效果。

第二类是难解概率（Intractable Likelihood）和独立潜在变量( Independent Latent Variables) 。传统方法只能做距离估计，通过网格和深度学习，可以把环境变量做一个二维显示，即信号样本点，随着训练的进行，点会做相应变化。

第三点是独立潜在变量( Independent Latent Variables) 。比如传统定位每一个点都有一个波形，然后三点画圆，推测位置。现在我想通过图推理，输入一个有连接关系的图，再直接通过深度学习网络，推出图模型。损失函数，由统一模型推出来。

为什么ChatGPT能脱颖而出？

刚刚我是从无线通信的角度探讨深度学习，能为传统的统计推断框架做什么。接下来我们反其道行之，讨论统计推断可以为深度学习提供什么灵感，联系ChatGPT和大语言模型，来谈一谈。

统计阶段能为深度学习做什么？深度学习本身，比如说大语言模型，它需要加入第一性原理，加入经典的推断算法吗？我认为是需要的。

目前的大语言模型主要基于2017年提出的Transformer架构搭建，算法本质上没怎么变，区别在于框架和训练方法。它面向的任务是机器翻译，当然现在也有一些图像，还有强化学习方面的研究。大语言模型分为三类：Encoder-Decoder、Encoder-only、Decoder-only(主流大模型)。ChatGPT4就属于Decoder-only。

ChatGPT4脱颖而出主要源于指令微调（Instruction Tuning），在多个以Instruction为指导的大量任务进行学习，让模型在理解这些具体的指令后给出答案。

ChatGPT4的升级之处在于，不用GPT3.5的反馈奖励模型，而采用句式奖励模型GPT4。这也和我的研究联系起来，我会认为把模型知识加进去，比添加新的网络结构去诱导网络更有用、更安全以及更具可解释性。

互动答疑

UEM：请问李老师，如何将深度学习应用于不同的领域？

李玉箫：理论领域，目前深度学习应用比较好的是图像和自然语言。再比如带编码的信息信号，机器学习其实很容易在数据集上过拟合，因为自然信号它本身就没有很好的数学模型。但是在传统的，比如脑电信号，还有人体的物理信号，包括我研究的无线信号，UWB、Wi-Fi、蓝牙这种情况下，机器学习现在必须基于传统的方法做一些增益，因为它无法直接使用。

然后从更广义的应用层面。我会觉得比如医疗保健，我们可以用医学图像分析疾病诊断、药物发现或者基因学研究，来提高医疗保健的准确性和效率；金融服务领域，可以做一些风险评估、投资管理；交通运输领域，比如智能交通、自动驾驶、交通流量预测；制造业领域，比如智能制造、质量控制，包括能源维护或者开采方面。

UEM：未来想进入科技大厂，学习哪些领域能帮助我更好地实现职业发展目标？

李玉箫：依据我所了解的情况，如果是博士的话，可能更看重方向一点，但有时候需要看是否契合具体的某一个部门的业务方向。就这几年而言，5G、无线通信、物联网这一块比较火，但这一块科研界也还比较欠缺。智能驾驶这几年挺波动的，企业开的薪酬高，需承担一定风险。

另外的话，图像自然语言这一块，一个是纯的AI赛道，譬如图像、音视频、自然语言处理等任务，薪酬高，竞争也非常激烈。但是如果拿自然语言去做一些别的事情，比如说医疗、风险评估、城市规划，那这些完全可以应对，市场也有很大的需求。

——

最后，李老师提到：“对于纯AI 研究，我很感兴趣AI在推理和扩展性方面的理论研究，它们有助于帮我们界定深度学习的适用范围和潜在风险。”

当一个深度学习网络可以识别公园中的一只小狗，我们并不知道这个学习系统到底是聚焦在环境中狗的尾巴上，还是狗所在的草坪。如果机器学习具备举一反三、触类旁通的能力，相信AI的可解释性会大大增强。

感谢李老师的精彩分享，让我们得以窥探AI深度学习的黑盒子！也欢迎你申请马德里欧洲大学的计算机科学与管理硕士，在职学习，斩获前沿的计算机知识。

关于【马德里欧洲大学】的硕士专业，如果您想了解更多信息。欢迎关注我们的官方公众号【UEM Online】，在公众号菜单栏的“课程选择”中获取。

撰文 | Anna Wei

编辑 | Anna Wei

李玉箫：打开深度学习黑盒，进一步理解AI

同等海外学历

优质校友

在职学习

微信公众号

小红书

知乎

抖音

B站