苏黎世青年数据科学研究员研讨会

主要内容

×

情态标题

模态内容

在这里订阅如果你愿意,你希望通过电子邮件得到关于这些演示的通知。此外你可以订阅到iCal/ics日历。

2021年春季学期

日期/时间 演讲者 标题 地方
2021年2月12日
15:00-16:00
王腾耀
伦敦大学学院
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 通过互补草图对高维线性回归系数进行两样本检验
演讲者、附属机构 王腾耀伦敦大学学院
日期、时间 2021年2月12日15:00-16:00
地方 变焦电话
摘要 我们介绍了一种新的方法来检验高维线性回归系数的二样本不假设这些系数是单独可估计的。这个过程首先是沿着坐标子集的符号互补方向投影协变量和响应向量的矩阵,这个过程我们称之为“互补草图”。所得到的投影协变量和响应被聚集成两个检验统计量,当两个回归系数之间的差分别是稀疏和密集时,在高斯设计下显示出本质上的最优渐近幂。模拟证实,我们的方法在广泛的设置中表现良好。
通过互补草图对高维线性回归系数进行两样本检验
变焦电话
2021年2月19日
15:00-16:00
Evgenii Chzhen
大学Paris-Saclay
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 在回归中量化风险-公平权衡的极小极大框架
演讲者、附属机构 Evgenii Chzhen大学Paris-Saclay
日期、时间 2021年2月19日15:00-16:00
地方 变焦电话
摘要 提出了一个学习满足公平性要求的实值函数的理论框架。该框架基于回归函数的α相对(公平)改进概念,我们使用最优运输理论引入了该概念。设定alpha=0对应于人口均等约束下的回归问题,而alpha=1对应于没有任何约束的经典回归问题。对于介于0和1之间的alpha,建议的框架允许在这两种极端情况之间连续插值,并研究部分公平的预测因子。在这个框架内,我们精确地量化了引入公平约束所导致的风险成本。我们提出了一个统计极大极小设置,并导出了满足α相对改进约束的任何估计量的风险的一般问题依赖下界。我们在一个具有高斯设计和系统组依赖偏差的线性回归模型上说明了我们的框架,在引入的约束条件下,推导了极小极大风险的匹配(直到绝对常数)上界和下界。本演讲基于与尼古拉斯·施鲁德(Nicolas Schreuder)的合作,参见[arXiv:2007.14265]。
在回归中量化风险-公平权衡的极小极大框架
变焦电话
2021年2月26日
16:00-17:00
冯阮
加州大学伯克利分校
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 线性时间内的交互搜索
演讲者、附属机构 冯阮加州大学伯克利分校
日期、时间 2021年2月26日16:00-17:00
地方 变焦电话
摘要 我们处理变量选择问题的重点是发现变量之间的相互作用。对于p个变量,有O(p^k)个可能的k阶交互使得穷举搜索不可行。我们证明,尽管如此,用线性计算代价O(p)和非参数方式确定交互(任何顺序)中涉及的变量仍然是可能的。我们的算法是基于最小化一个非凸目标,精心设计有一个有利的景观。我们为假阳性(我们显示了目标的所有平稳点,排除噪声变量)和假阴性(我们描述了梯度下降收敛到一个“好的”平稳点所需的样本量)提供了有限的样本保证。
线性时间内的交互搜索
变焦电话
2021年3月5日
14:30-15:30
阿迪蒂亚拉姆达斯
卡内基瓜大学
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 用打赌法估计有界随机变量的均值
演讲者、附属机构 阿迪蒂亚拉姆达斯卡内基瓜大学
日期、时间 2021年3月5日,14:30-15:30
地方 变焦电话
摘要 我们推导了从有界观测估计未知均值的经典问题的置信区间(CI)和时间一致置信序列(CS)。我们提出了一种推导浓度界限的一般方法,可以看作是著名的切尔诺夫方法的推广(和改进)。在其核心,它是基于推导出一类新的复合非负鞅,与赌博和混合方法有很强的联系。我们将展示如何将这些想法扩展到不替换抽样,这是另一个被大量研究的问题。在所有情况下,我们的边界是自适应的未知方差,并在经验上大大优于基于Hoeffding或经验伯恩斯坦不等式及其最近的超鞅推广的竞争方法。简而言之,我们为四个基本问题建立了一种新的先进技术:CSs和ci(有替换和没有替换)。这项工作是与伊恩·沃比-史密斯合作的,预印本在这里:https://arxiv.org/abs/2010.09686。
用打赌法估计有界随机变量的均值
变焦电话
2021年3月12日
16:30-17:30
克里斯托Thrampoulidis
英属哥伦比亚大学
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 过度参数化的祝福与诅咒:精确的高维方法
演讲者、附属机构 克里斯托Thrampoulidis英属哥伦比亚大学
日期、时间 2021年3月12日16:30-17:30
地方 变焦电话
摘要 尽管深度神经网络的参数化和训练过于复杂,但没有明确的正则化,但它仍具有很好的泛化能力。理解这种现象背后的原理——被称为良性过度拟合或双重血统——对现代学习理论提出了新的挑战,因为它与经典的统计智慧相矛盾。关键问题包括:双重下降背后的基本机制是什么?它的特征,如转移阈值和全局极小值,如何依赖于训练数据和用于训练的算法?虽然增加过参数化可以提高分类精度,但它也带来了更大的、因此速度较慢且计算成本更高的体系结构,这在资源受限的应用程序中可能是禁止的。那么,过参数化是否仅与训练大型网络相关,或者与适当的模型修剪技术相结合时,它是否也有利于训练较小的模型?修剪过参数化模型的泛化动力学是什么?最后,虽然过度参数化导致较低的误分类错误,但它对公平性性能指标(如平衡错误和机会均等)有何影响?与交叉熵等标准损失相比,我们能否设计出更好的损失函数,从而在存在标签不平衡和/或组敏感数据集的情况下提高大型模型的公平性性能?这次谈话将阐明上述问题。结果的核心是一个强大的分析框架,用于精确的高维统计分析。这个所谓的凸高斯最小-最大定理框架建立在Gordon的高斯比较不等式的基础上,并植根于对压缩传感中尖锐相变的研究。
过度参数化的祝福与诅咒:精确的高维方法
变焦电话
2021年3月19日
16:00-17:00
斯蒂芬·贝茨
加州大学伯克利分校
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 无分布,风险控制预测集
演讲者、附属机构 斯蒂芬·贝茨加州大学伯克利分校
日期、时间 2021年3月19日16:00-17:00
地方 变焦电话
摘要 为了在预测任务中实现有效的统计推断,我们展示了如何使用控制各种统计误差概念的黑箱模型生成集值预测。对于任何预测模型和基础分布,我们的方法保证未来测试点的预期损失低于用户指定的水平。基于共形预测,我们使用保持集来校准预测集的大小,推广了控制错误概念(如错误拒绝率)的方法。我们在四个大规模问题中演示了我们的程序:(1)多标签分类,其中每个观察都有多个相关标签;(2) 标签具有层次结构的分类问题;(3) 图像分割,我们希望预测包含感兴趣对象的一组像素;蛋白质结构预测。
无分布,风险控制预测集
变焦电话
2021年3月26日
15:00-16:00
杨丹娜
杜克大学
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 种植匹配问题:尖锐阈值和无限阶相变
演讲者、附属机构 杨丹娜杜克大学
日期、时间 2021年3月26日15:00-16:00
地方 变焦电话
摘要 基于从快照中跟踪运动粒子的应用,我们研究了隐藏在随机加权的nxn二部图中的完美匹配的重建问题。边缘集以d/n的概率独立包含隐藏匹配中的每个节点对和其他n(n-1)个节点对。每条边的权值都独立地从分布P或Q中提取,这取决于这条边是否在隐藏匹配中。在这次讨论中,我们建立了信息理论阈值来恢复隐藏匹配的几乎所有边缘。我们发现尖锐阈值出现在根号{d}B(P,Q)=1处,其中B(P,Q)表示Bhattacharyya系数,解决了[Moharrami et al. 2019, Semerjian et al. 2020]中的猜想。进一步,对于d=n, P=\exp(\lambda), Q=\exp(1/n)的完全指数加权图,其尖锐阈值简化为\lambda=4的特殊情况,我们证明当\lambda <= 4-时,最优重构误差(平均误分类边数)为\exp(\ Theta(1/\sqrt{\epsilon}),证实了[Semerjian et al. 2020]中推测的无限阶相变。这是与丁健、吴义红、徐嘉明的合作。该作品的预印本可在https://arxiv.org/abs/2103.09383上获得。
种植匹配问题:尖锐阈值和无限阶相变
变焦电话
2021年4月16日
16:30-17:30
斯宾塞弗雷
加州大学洛杉矶分校
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 对抗标签噪声下任意宽度sgd训练神经网络的可证明泛化
演讲者、附属机构 斯宾塞弗雷加州大学洛杉矶分校
日期、时间 2021年4月16日16:30-17:30
地方 变焦电话
摘要 当标签被大量随机噪声破坏时,SGD训练的过度参数化神经网络是否可以被证明泛化?我们给出了肯定的答案:对于一类广泛的分布,由SGD训练的单隐藏层网络在分布是线性可分但被对抗标签噪声破坏的情况下进行推广,尽管有过拟合的能力。同样地,这样的网络具有与分布上的最佳半空间的分类精度相竞争的分类精度。我们的结果适用于任意宽度的网络和任意SGD初始化。特别地,我们不依赖于在sgd训练的神经网络的理论分析中通常使用的无限宽网络的近似。
对抗标签噪声下任意宽度sgd训练神经网络的可证明泛化
变焦电话
2021年4月23日
15:00-16:00
韩宇奇顾
杜克大学
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 贝叶斯金字塔:从离散数据中识别可解释的离散潜在结构
演讲者、附属机构 韩宇奇顾杜克大学
日期、时间 2021年4月23日15:00-16:00
地方 变焦电话
摘要 生物医学和社会科学中经常收集高维分类数据。建立可解释的降维模型并从这些离散数据中发现有意义的潜在结构是非常重要的。在这种情况下,可识别性是有效建模和推断的基本要求,但当存在复杂的潜在结构时,解决这一问题具有挑战性。针对离散数据提出了一类可解释的离散潜在结构模型,并发展了一般可识别理论。我们的理论适用于各种类型的潜在结构,从单个潜在变量到组织在稀疏图(称为贝叶斯金字塔)中的深层潜在变量。在适当的先验条件下,所提出的可识别条件可以保证贝叶斯后验一致性。作为一个例子,我们考虑了两层潜层模型,并提出了一种贝叶斯收缩估计方法。仿真结果证实了模型参数的可辨识性和可估计性。该方法在DNA核苷酸序列数据的应用揭示了既可解释又具有高度预测性的序列类型的离散潜在特征。该框架为离散数据的可解释无监督学习提供了一个配方,可以作为流行的机器学习方法的一个有用的替代方案。
贝叶斯金字塔:从离散数据中识别可解释的离散潜在结构
变焦电话
2021年4月30日
16:00-17:00
多米尼克·罗森豪斯勒
斯坦福大学
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 条件推理:走向统计证据的层次结构
演讲者、附属机构 多米尼克·罗森豪斯勒斯坦福大学
日期、时间 2021年4月30日16:00-17:00
地方 变焦电话
摘要 统计上的不确定性有很多来源。p值和置信区间通常量化总体不确定度,其中可能包括由于抽样而产生的变化和由于测量误差而产生的不确定度等。实践者可能只对量化不确定性的一个来源感兴趣。例如,一个人可能对一组固定对象的回归系数的不确定性感兴趣,这对应于量化测量误差引起的不确定性,忽略抽样协变量引起的变化。在因果推理中,通常会对一组特定的被试进行治疗效果的推断,只考虑了由于随机治疗分配而产生的不确定性。基于这些例子,我们考虑了参数和半参数模型中条件参数的条件推理;我们以观察到的总体特征为条件。我们讨论了获得条件有效p值和置信区间的方法。条件p值可以用来构建统计证据的层次结构,这可能有助于澄清统计发现的一般性。此外,我们将讨论如何在严格条件保证下进行条件参数迁移学习的初步结果。 This is ongoing work with Ying Jin.
条件推理:走向统计证据的层次结构
变焦电话
2021年5月7日
15:00-16:00
程毛
佐治亚理工学院
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 随机图匹配:有效的恢复和检测算法
演讲者、附属机构 程毛佐治亚理工学院
日期、时间 2021年5月7日,15:00-16:00
地方 变焦电话
摘要 图匹配,也称为网络对齐,是指匹配两个未标记的、边相关图的顶点的问题。这个问题在许多领域都有应用,如计算生物学、网络隐私和计算机视觉。在这篇演讲中,我将讨论在有效恢复和检测两个图之间的潜在匹配方面的几个最新进展。特别地,在相关的Erdős-Rényi模型下,如果两个图在n个顶点上的相关性至少为1-1/polyloglog(n),则可以恢复高概率的精确匹配,而如果相关性至少为常数,则可以有效地解决关联检测问题。另一方面,当相关性很小时,有证据表明计算困难。此外,我将讨论图匹配问题的理论意义,它与植入信号的其他问题的联系,以及未来的许多方向。本次演讲基于与周凡、吴义红、徐嘉明、Mark Rudelson、Konstantin Tikhomirov和Sophie H. Yu的合作。
随机图匹配:有效的恢复和检测算法
变焦电话
2021年5月14日
15:00-16:00
鲍里斯Muzellec
巴黎萨克莱酒店
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 在平稳的最优运输中打破维度的诅咒。
演讲者、附属机构 鲍里斯Muzellec巴黎萨克莱酒店
日期、时间 2021年5月14日15:00-16:00
地方 变焦电话
摘要 众所周知,最佳传输的插件统计估计受到维数灾难的影响。虽然最近的工作能够利用平滑度来提高估计率,但结果方法的计算复杂性仍然随着维数呈指数下降。在本次演讲中,我们将展示如何利用smoothness使用由最优传输满足的稠密不等式集的核平方和表示。利用该技术,我们提出了一种多项式时间算法,该算法可产生不依赖于维数的估计率——在最坏情况下,以可能仍然以指数形式依赖于维数的常数为代价。
在平稳的最优运输中打破维度的诅咒。
变焦电话
2021年5月21日
15:00-16:00
约翰内斯·维塞尔
哥伦比亚大学
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 以适应的瓦瑟斯坦距离估计过程
演讲者、附属机构 约翰内斯·维塞尔哥伦比亚大学
日期、时间 2021年5月21日15:00-16:00
地方 变焦电话
摘要 许多研究人员已经独立地介绍了随机过程法则集上的拓扑,这些法则扩展了通常的弱拓扑。根据各自的科学背景,这是由不同领域的应用和联系引起的(例如Plug-Pichler-随机规划、Hellwig-博弈论、Aldous-最优停车稳定性、Hoover-Keisler-模型理论)。值得注意的是,所有这些看似独立的方法在有限离散时间内定义了相同的自适应弱拓扑。我们的第一个主要结果是构造了一个经验度量的自适应变量,该变量一致地估计了完全通用的随机过程的规律。根据Pflug-Pichler的开创性工作,通过对Wasserstein距离的自适应细化,给出了弱自适应拓扑的自然兼容度量。具体而言,自适应的Wasserstein距离允许以Lipschitz方式控制随机优化问题、定价和套期保值问题、最优停止问题等中的误差。本文的第二个主要结果给出了关于自适应Wasserstein距离的自适应经验测度收敛的定量界。令人惊讶的是,我们获得了与经典经验测量wrt几乎相同的最佳速率和浓度结果。瓦瑟斯坦距离。最后,作为上述理论的应用,我们构造了一个关联系数。这次演讲是基于与朱利奥·巴克霍夫、丹尼尔·巴特尔和马蒂亚斯·贝格洛克的共同努力。
以适应的瓦瑟斯坦距离估计过程
变焦电话
2021年5月28日
15:00-16:00
Morgane Austern
新英格兰微软研究院
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 依赖和结构化随机对象学习的渐近性
演讲者、附属机构 Morgane Austern新英格兰微软研究院
日期、时间 2021年5月28日,15:00-16:00
地方
摘要 经典的统计推断依赖于概率论中的许多工具来研究估计量的性质。然而,这些工具通常不足以研究经常涉及结构化数据(如网络)或复杂依赖结构(如依赖随机矩阵)的现代机器问题。在这篇演讲中,我们将普遍极限定理扩展到经典设置之外。首先,我们考虑分布的结构化的和相关的随机对象。{即分布在服从群作用下不变的随机对象。在温和矩和混合条件下,我们给出了一系列普遍的二阶和三阶极限定理:中心极限定理、集中不等式、Wigner半圆定律和Berry-Essen界。这些定理的实用性将通过机器学习、网络和信息理论中的一系列例子。其次,基于这些结果,我们建立了交叉验证风险的渐近分布,允许折叠数以任意速率增长。利用这一点,我们研究了交叉验证相对于列车试验分离过程的统计速度re,这揭示了令人惊讶的结果,即使在使用简单的估计。
依赖和结构化随机对象学习的渐近性
2021年6月4
16:30-17:30
利华国际Lei
斯坦福大学
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 反事实的适形推理和时间到事件的结果
演讲者、附属机构 利华国际Lei斯坦福大学
日期、时间 2021年6月4日16:30-17:30
地方 变焦电话
摘要 机器学习的最新进展为我们提供了无数强大的预测工具。当它们被用于高风险决策时,有效的不确定性量化也是至关重要的,这对复杂的预测算法来说是一个挑战。当预测目标在数据中没有被完全观察到时,这一挑战就更加明显。本次演讲介绍了基于适形推理的方法,用于为两种部分观察到的结果生成校准的预测区间:(1)以潜在结果为特征的反事实,仅在特定治疗组中可观察到;(2)时间到事件的结果,仅在事件已发生的组中可观察到。当缺失数据机制已知时,如在随机实验中,这两种方法都能在有限样本中实现理想的覆盖率,而不需要对协变量条件下的结果分布或预测算法的准确性作任何假设。当缺失的数据机制未知时,两种方法都能满足双重健壮的覆盖率保证。我们在模拟数据集和真实数据集上证明,我们的预测间隔是经过校准的,而且相对紧密。
反事实的适形推理和时间到事件的结果
变焦电话
2021年6月11日
15:00-16:00
Yuhao王
清华大学
事件详细信息

苏黎世青年数据科学研究员研讨会

标题 用高维混杂因素估计平均处理效果的去偏反倾向评分加权
演讲者、附属机构 Yuhao王清华大学
日期、时间 2021年6月11日15:00-16:00
地方 变焦电话
摘要 我们考虑对给定高维预处理变量的观测数据的平均治疗效果的估计。针对这个问题的现有方法通常假定回归函数具有某种形式的稀疏性。在这项工作中,我们引入了一个去偏倾向性得分加权(DIPW)平均处理效果估计方案,当倾向得分遵循一个稀疏逻辑回归模型时,该方案提供了\根号{n}一致的平均处理效果估计;回归函数可以是任意复杂的。我们的理论结果量化了允许回归函数不可估计所付出的代价,在温和的条件下,与半参数有效方差相比,估计量的方差膨胀最多O(1)。由于对回归函数缺乏假设,也可以以√{n}率估计每个处理下转化反应的平均值,因此,例如,可以估计潜在结果的方差。我们展示了如何构建以我们的估计为中心的置信区间,并讨论了该方法的扩展,以估计异质处理效果函数的投影。
用高维混杂因素估计平均处理效果的去偏反倾向评分加权
变焦电话
浏览器中的JavaScript已被禁用