硕士论文

主要内容

2021

学生 标题 顾问(s) 日期
Yunrong曾
线性混合效应模型:参数估计,协方差结构和哈斯图 马库斯·卡利施博士 8月- 2021
文摘:线性混合效应模型(lms)是强大的建模工具,可以分析具有复杂层次结构的数据集。过去十年的深入研究使人们对它们的性质有了更好的了解。本文是对lmm模型的应用研究,旨在加深对lmm模型的理解,为实际生活中处理问题时正确选择模型提供指导。从估计线性混合效应模型的教程开始,我们进行了模拟研究,以验证最大似然(ML)和限制最大似然(ReML)方法之间的差异,并比较计算置信区间的某些方法。接下来的两章着重于收集具体的例子,将lmm分类为几个类别,并找到合适的方法来解释它们。
大卫·德雷
利用废水样本基因组分析监测SARS-CoV-2变异 马库斯·卡利施博士
Niko Beerenwinkel教授
2021年6月,
文摘:自COVID-19大流行开始以来,检测和检测工作一直处于公共卫生战略的前沿。从2020年底开始,由于SARS-CoV-2变体的出现和传播与更高的传播性、疾病严重程度和死亡率有关,重点已大大转向基因组监测。自大流行相对早期以来,调查城市废水中的病毒载量已被证明是一种经济、公正和快速监测病毒在社区传播的方法,极大地补充了临床数据。随着基于废水的流行病学领域的兴起,许多重要的问题出现了关于可以从污水样本中获得的知识类型和关于最佳方法的问题。在这项工作中,我们展示了废水提取物的多重反转录数字PCR (RT-dPCR)和下一代测序(NGS)如何用于新出现或引入的SARS-CoV-2变体的早期检测、量化甚至流行病学特征。我们表明,尽管数据本身具有挑战性,但估计可以非常精确。开发的方法随后在瑞士各地污水处理厂的SARS-CoV-2基因组变异的国家监测项目中实施。
会Cornali
控制的元认知:内感受经验控制的贝叶斯方法 Peter B] uehlmann教授
亚历山大•赫斯
2021年5月-
文摘:控制外部情况或身体内部过程的感觉是日常生活中经常出现的,对一个人的行为和健康有重大影响。这种控制的感觉指的是对事件的元认知评估,其中“元认知”代表关于控制的感知的自我反思性质。计算精神病学领域的最新理论提出了元认知在疲劳和抑郁中的关键作用。因此,理解控制感是如何产生的,以及相似的事件如何导致有时完全相反的控制体验是很有意义的。在这里,我们专注于内感受的领域,它被定义为对身体状态的感知。我们分析并描述了一种可能的机制,对自己的身体状态进行经验控制。此外,我们提出了一个生成式控制模型,该模型结合了我们对大脑机制的假设,该假设基于贝叶斯大脑理论的控制元认知概念。我们将使用现有的内感受学习模型(即大脑对内感受信号的处理),并将它们与一组用于控制的元认知评估的新模型联系起来。同时,我们概述了与我们模型的结构和假设相兼容的实验研究的设计。在这项研究中,参与者的控制体验是由以吸气阻力形式出现的呼吸内感受域的诱导扰动所操纵的。 Participants can both exert control on the probability of experiencing breathing under an inspiratory load and learn about the underlying probabilistic structure of the task to better predict future bodily states. By requiring participants to predict respiratory perturbations and report their control experience on each trial of the study, we are able to infer on subject-specific beliefs as well as the values of parameters of our models characterizing their behaviour. We assess the models in our proposed model space using a set of simulation analysis. In a first step, we find suitable prior configurations for our models by analyzing the possible range of behaviour produced by our models. In a second step, we focus on the individual effect of the different parameters of our models and successfully demonstrate their recoverability. This serves as a demonstration of the functionality of our model space and its utility for future use in the analysis of the outlined study.
撒母耳Koovely
漫画树的数学框架:t细胞受体特异性的无向图形模型 Marloes Maathuis教授
M.博士Rodríguez Martínez
2021年5月-
文摘:t细胞是适应性免疫系统的核心组成部分:它们在对外来病原体做出有效和量身定制的反应方面发挥着重要作用,而且它们在癌症和某些自身免疫性疾病中也有作用。
t细胞受体是存在于t细胞表面的蛋白质复合物,负责识别外来抗原和自身抗原。考虑到蛋白质-蛋白质相互作用的复杂性,这个识别过程表现出一种准随机行为,可以用概率和统计模型建模。
图形模型可以以图形的方式方便、透明地表示多元分布。在本文中,我们介绍了一种用于蛋白质-蛋白质相互作用的无向图形模型COMIC-Tree,以及一种基于条件互信息的贪婪算法DrawCOMIC-Tree,用于学习COMIC-Tree结构。我们为它们提供了坚实的数学基础,突出了一些理论方面,并在t细胞受体数据集上对它们进行了实证测试。
冯文浩
SARS-CoV-2有效繁殖数的置信区间 Marloes Maathius教授 4月- 2021
文摘:监测新冠病毒的有效繁殖数R_e是控制近期新冠肺炎疫情的关键步骤。它是流行病增长的一个主要指标,用于评估流行病是在增长、下降还是保持恒定的增长速度。自从这一流行病开始以来,已经制定和采用了许多方法来准确估计“R_{e}$”,从而能够对疾病的蔓延进行近乎实时的监测。然而,仅仅得到一个准确的估计是不够的,因为它的不确定性也是一个需要考虑的关键因素。为了更好地解释这些估计的不确定性,我们从考虑到观测数据的时间协方差结构的几种自适应自引导方法中推导出置信区间。通过对假设模型进行仿真得到的合成数据,对置信区间进行了评估和验证。通过比较每个自举过程中所选择的一些指标的验证结果,我们给出了显示最有希望的结果的过程,并讨论了它的缺点。
佳林李
混合关联:R实现中的参数估计分析及其在股票收益中的应用 Martin M achler教授 4月- 2021
文摘:混合联结模型允许上下尾不同的尾依赖结构,在应用上具有更大的灵活性。混合联结由几个分量联结和一个权重向量组成。权重的估计涉及到参数变换、中心对数比变换。R包copula可以估计每个组件copula的参数,lambdas是转换后的权重和相应的标准误差。在本文中,通过方差变换技术,delta方法估计原始权重参数的标准误差,允许统计推理如置信区间。由于零权重的存在,混合关联参数的最大似然估计的渐近正态性失效。给出了收敛和非收敛情况下混合联结估计过程的实例。通过仿真,估计了零权混合联结模型参数估计置信区间的覆盖率。通过对不同样本量的初始值和对同一样本量的多个初始值进行模拟试验,研究了初始值对参数估计的影响。提出了一种模型选择方法,并应用于从纳斯达克全球精选交易所市场中为医疗保健行业股票组合寻找合适的混合关联模型。
加威记
广义线性模型及其推广 马库斯·卡利施博士 4月- 2021
文摘:广义线性模型(GLMs)是线性模型的推广,它允许数据具有不同于正态的误差分布。此属性允许对响应变量(如分类数据或二进制数据)进行更多选择。一个重要的假设
模型是数据需要是独立的,但在实践中我们经常看到观测之间的相关性。提出了广义估计方程(GEE)和广义线性混合模型(GLMM)两种不同的方法来处理相关问题
数据。在本文中,我们主要研究了GEE模型的性质和性能。本文还进行了仿真,以验证一些重要的结果。
安娜·玛丽亚·马达克斯
动态游戏中的行为估计 尼科洛异教
朱塞佩Belgioioso
Fadoua Balabdaoui
4月- 2021
文摘:博弈论的一个主要关注点是根据玩家的潜在效用来预测他们的行为。虽然玩家的效用通常是未知的,但他们的行为通常是未知的
可观察到的。这激发了静态逆问题的公式,旨在从观察到的纳什均衡推断潜在的效用。通过逆向优化,我们将静态推理问题重新塑造为优化问题,并通过线性求解
在效用函数的温和假设下编程。我们扩展静态推理问题,通过利用更好的响应动态的概念来解决动态游戏。的
动态推理问题旨在通过观察遵循更好反应动态的玩家之间的行动序列来识别潜在效用。在温和的假设下
效用函数可以通过线性规划有效求解。相对于动态推理问题,静态推理问题的解是一个包含
所有能使观察到的行为最合理的效用函数参数。我们引入了基于Löwner-John椭球和最大体积内切椭球的两种度量来捕获解集相对于参数空间的粗度。
为了说明我们的方法,我们将Bertrand-Nash竞争下的需求估计的经典示例作为静态推理问题和动态推理问题,其中观察到的价格分别构成了纳什均衡和更好的响应动态。在数值模拟中,我们表明,如果观察到的价格是一个精确的纳什均衡,静态推理方法恢复了需求函数的真实基本参数,并且仅观察到少数价格对就足以实现非常精细的解集。此外,我们的研究结果
与其他关于需求估计的论文一致。如果观察到的价格遵循一个精确的更好的响应动态,则用动态推理方法得到等效结果。我们
通过从1968-1986年观察到的可口可乐和百事可乐的价格来估计它们的需求,进一步验证动态推断方法。我们的动态推理方法的一个显著特征是,它适用于动态游戏,这些游戏还不一定收敛到均衡,但它只是基于玩家的目标是相对于之前的行动提高他们的效用的假设。
Zhufeng李
模型- x仿冒框架的高斯图形模型 Marloes Maathuis教授 4月- 2021
文摘:在变量选择问题的许多应用中,我们需要从大量潜在变量中确定影响响应变量的重要变量。同时,我们希望控制错误发现率(FDR)。本文首先研究了几种经典的多重测试控制准则和控制过程。然后,我们回顾了一些经典的仿制滤波器的变量选择问题,包括固定设计的Barber和Candès或Candès等人的随机设计。由于高斯图模型(GGM)的结构学习可以被视为许多变量选择任务(即节点变量选择),我们的主要重点是开发一种新的model- x仿制滤波器,实现高斯图模型上的图级FDR控制。基于Li和Maathuis的fixed-X GGM仿冒框架,明智地构建仿冒副本和特征统计节点。通过组合优化,全局计算阈值向量作为决策规则。为我们新提出的程序提供了一个FDR的理论上限。我们的新方法更适用,因为它不像在fixed-X GGM仿制框架中那样需要超参数$(a, c_{a})$。我们进行了一些模拟,以直观地了解我们的边界有多紧,并将我们的方法与现有方法进行比较。 Some future research directions are given at the end of this thesis.
Xuanyou锅
实践中的glmm 马库斯·卡利施博士 4月- 2021
文摘:本文主要研究广义线性混合模型的实际应用。仿真研究表明,在随机效应存在的情况下,glmm比广义线性模型(GLMs)具有更好的性能(在置信区间覆盖率方面)。本文还研究了零膨胀泊松(zero - inflation Poisson, ZIP)模型用于过多零的计数数据。仿真研究表明,ZIP模型对固定速率伯努利分布中采样过零的数据有较好的处理效果。此外,正常的glmm在固定治疗效果参数的拟合置信区间上也有较好的覆盖率。实例分析表明,常规glmm模型能较好地预测非零响应变量的频率,而ZIP模型能较好地预测总体频率。
郑晨满
使用基于智能手机的数字生物标志物数据检测多发性硬化症患者的疾病进展 彼得博士教授Bühlmann
F. Model博士
F. Dondelinger博士
3月- 2021
文摘:多发性硬化症(MS)的疾病进展检测通常是基于
在扩展残疾状态量表(EDSS)上,执行起来很麻烦,而且存在可靠性问题。智能手机技术的进步为测量提供了新的机会
患者在日常生活中表现频繁。我们实现了一个算法
对于疾病进展事件检测,考虑评估频率的异质性和使用置信界限的智能手机收集的数据的噪声。对一组患者的表现和与临床进展事件的一致性进行了调查
大约450名MS患者使用泛光灯应用程序。在考虑患者情况时,算法按预期工作。在泛光灯中3个特征中发现的大多数进展事件(68%)持续到观察结束。我们没有达成重大共识
在相应的临床锚点检测到进展事件(AUC < 0.52)。然而,我们发现泛光灯挤压试验和临床9孔钉试验之间的持续改善事件是一致的(AUC = 0.64, 95% CI:[0.53, 0.75])。需要更长的随访数据来确定这些发现。
Peshal阿加瓦尔
无监督无源数据的鲁棒域自适应 Luc Van Gool教授
Peter Lukas教授Bühlmann
3月- 2021
文摘:无监督域适应是指源域上有标记的数据可用于训练的设置,目标是在无标记的目标数据上表现良好。源和目标之间的域转移的存在使它成为一个非平凡的问题。我们研究了在目标标签和源数据不可用的情况下的鲁棒域自适应问题。所考虑的鲁棒性是针对对抗性扰动的。本工作旨在回答在无源数据的无监督域适应中寻找正确的策略使目标模型健壮和准确的问题。
本工作的主要发现是:(i)鲁棒源模型可以鲁棒地转移到目标;(ii)鲁棒域自适应可以极大地受益于非鲁棒伪标签和成对的对比损失。所提出的使用非鲁棒伪标签的方法在两者上都表现得令人惊讶地好
清洁和对抗样本的图像分类任务。在四个基准数据集上,与测试基线相比,我们显示了超过10%的一致性性能改进。
Afambo Nitya
预测模型的因果公平性 Marloes Maathuis教授 3月- 2021
文摘:在这篇论文中,我们从理论和实践的角度研究了因果推断的工具如何用于解决在使用统计模型进行预测任务时出现的公平性相关问题。人们可以很自然地将不公平定义为敏感属性(如种族或性别)沿着某些不允许的因果路径对利益结果的因果影响。假设观测是由结构方程模型产生的,我们将展示如何以自然的方式消除这些不公平的影响,以及如何获得所谓的公平预测。
Daria Izzo
知识图谱丰富的语义角色标注和共指解析 李永明教授Bühlmann
路易斯·萨拉曼卡医生
费尔南多·佩雷斯-克鲁兹博士
3月- 2021
文摘:在本论文中,我们将现有的语义角色标记(SRL)模型应用于瑞士联邦档案馆的文本。这些数据包含了从1891年到1980年国民议会和国务委员会的演讲。该模型用谓语形参结构对所有句子进行标注,同时查找句子中的关键词。此外,这些标记用于提取主语、谓语和宾语形式的三元组,其中每个实体可以由几个单词组成。我们使用这些提取的信息在一个清晰的知识图表中捕捉议会演讲是如何构建的,并理解议会议员的修辞。主题、对象和谓词以及演讲的元数据被表示为节点,并与其他元数据相关,如演讲的年份、演讲者等。此外,节点的属性和节点之间不同的关系类型丰富了图形数据库,并允许更多增强的查询。

在此基础上,我们在三元组生成步骤中实现了一个协参分辨率(CR)模型,从而改善了我们的结果。使用这种方法是为了用代词所指向的实体或句子的一部分来代替代词。通过这种方式,去掉不具信息量的词语,增加人物或话题之间的重要关系。所有这些结果都是更具体和信息丰富的三元组,以及更容易理解的图表内容。

最后,我们提出了实施方法的一个更具体的应用:识别民粹主义演讲和评估民粹主义在整个时间内的演变。
Maic Rakitta
广义线性锚定回归 p.l.教授Bühlmann
卢卡斯怪人
3月- 2021
文摘:当测试数据与训练数据不同时,由传统学习算法得出的预测通常会失败。然而,只使用反应的直接原因可以得出可靠的预测,前提是在因果模型的典型强假设下,可以从训练数据估测因果效应。Rothenhäusler等人(2021)放松了这些因果假设,并通过提出一种新的回归技术,他们称之为锚点回归(AR),构建了对移位分布进行稳健预测的目标。AR模型由外生随机变量(锚)产生的异构性。该方法不关注于确定因果参数,因为对于移位分布,真正的因果参数在最坏情况预测性能方面可以表现得更好。这是通过使用最小二乘损失的因果正则器从残差中解关联外生锚来实现的。根据正则化的程度,锚回归估计器在普通最小二乘和两阶段最小二乘之间进行插值。虽然这种插值已被证明是有用的,但使用最小二乘损失并不适用于所有类型的响应。如果我们允许响应由指数族的任何分布产生,平方误差损失是不合适的,并促使使用更一般的,基于可能性的损失函数。

因此,在这项工作中,我们提出了广义线性锚回归(眩)估计器,它构成了AR对广义线性模型(GLM)的推广。锚定目标基于在合适的因果正则化器下最小化负对数似然,通过用偏差或Pearson残差替换最小二乘残差,与GLM框架兼容。在本文中,我们在一个R包中实现了眩光估计器,并通过仿真研究对其进行了实证研究。仿真研究表明,在有效和无效的工具变量假设下,与最大似然估计(MLE)相比,使用强光可以提高高斯分布、二项式分布和泊松分布的最差情况预测性能。

眩估计器的理论结果,例如在有效的工具变量假设下因果参数的可识别性,以及对现实世界数据的应用仍然缺乏。本文在R包中成功实现了眩光的基本理论,为以后的理论工作和应用奠定了基础。

关键词:锚点回归,稀释因果关系,异构数据,最坏情况预测
珍妮·费尔南德斯
生成式对抗网络的拓扑比较 Marloes Maathuis教授
Karsten Borgwardt教授
3月- 2021
文摘:数据分析中一个著名的假设是流形假设,它假设高维数据位于嵌入在高维空间中的低维流形上。这个假设证明了通过代数拓扑的透镜来研究数据集,评估假设的底层流形的结构。使用持久同调的框架,可以近似这样一个流形的拓扑结构,即使有限的样本集是可用的。
在这项工作中,我们对生成对抗网络(GANs)中出现的数据感兴趣。我们的目标是评估生成数据集的拓扑结构与原始数据集的拓扑结构有多接近。我们使用它来批评模型,并比较来自不同GANs的数据集的拓扑结构。我们的研究基于Khrulkov和Oseledets在2018年提出的几何分数的概念,这是Betti数的概率适应。我们提出了一些实验,并提出了几何分数的一些扩展。
挚友的手指
随机截距和随机截距随机斜率模型:相关结构和评估R中lmer函数的质量。 马库斯·卡利施博士 2021年2月,
文摘:我们回顾了R中线性混合模型的拟合和参数的最大似然估计
为读者准备一个坚实的基础。为了实现这一点,用两种方法来计算置信区间
也作了说明。本文推导了随机截距模型和随机截距随机斜率模型的相关结构。它使用R包lme4,并显示了与拟合过程相关的各自矩阵和向量。此外,本文还建立了拟合随机截距的函数lmer的质量
随机截距随机斜率模型。在此基础上,我们建立了三个不同的模拟研究
评估分组效果等级数量影响的数据集,以及一些模型违规的影响。我们使用覆盖率概率和我们估计的直方图来确定哪一个有多好
模型的行为。

我们的结果表明,一个线性混合效应模型应该至少有十级随机效应
覆盖概率要准确。此外,他们还证明,如果误差分布不是正态分布,R的结果仍然是近似正确的。
艾米莉Epiney
线性混合e ects模型的残差分析 卢卡斯·迈耶博士 2021年2月,
文摘:分组数据结构在卫生或社会科学等各个领域都很常见,例如在临床试验中对受试者进行多项测量时,或在教育研究中随机选择几所学校进行监测时。组间的观察结果是独立的,但同一类群内的观察结果却不是。线性混合效应(LME)模型通过在经典统计回归中引入随机项,为适当地拟合这类数据提供了必要的统计框架。这种新的变化来源充分地捕捉了分组效应,但也增加了一层复杂性,在开发模型诊断工具时需要考虑到这一点。

这篇硕士论文提出了LME模型的数学框架,并推导出可被视为残差的不同量:条件残差和边际残差,以及最佳线性无偏预测器。然后,它检查并实现各种转换和绘图,这些转换和绘图可用于检测模型假设的违反。

为了确定一个特定的趋势是由于随机性还是模型的错误规范,我们在图中包含了一个置信带。它是通过从拟合模型中模拟新数据集,改装模型,然后将各自的平滑层添加到图中来创建的。当进行了20次或更多次模拟时,结果是总结性的,并有助于模型验证。

模拟数据集用于确定不同可视化技术的有效性。我们发现,由Nobre和Singer提出的最小混杂残差对诊断误差项的非正态性没有帮助,因为它们倾向于遵循正态分布,而不管误差项的真实分布如何。此外,由于它们依赖于并不总是唯一的奇异值分解,因此它们没有良好的定义。

最后,我们介绍了时间序列和图表,以确定需要更复杂的相关结构,尽管不可能在\lstinline{lme4}包中实现这些结构。我们实现了协方差矩阵的残差图以及自相关参数和部分自相关参数的残差图。

2020

学生 标题 顾问(s) 日期
罗勒马格
用隐马尔可夫模型对共病进行建模 马库斯·卡利施博士
Stefan Feuerriegel教授
11月- 2020
文摘:在医学上,合并症是指多种同时发生的疾病的存在。由于合并症的性质,一种合并症的病程往往依赖于其他疾病的病程,因此,治疗可产生显著的溢出效应。尽管患者中普遍存在合并症,但缺乏一个综合的统计框架来模拟合并症的纵向动态。在这篇论文中,我们提出了一个概率纵向面板模型来分析患者的共病动力学。具体来说,我们开发了一个具有个性化转换机制的耦合隐马尔可夫模型,命名为comoribidi - hmm。我们的共病- hmm的规范是由临床研究提供的:(1)它通过引入具有临床意义的潜伏状态来解释疾病进展中的不同方案(即,急性,稳定)。(2)它模拟了来自共病的轨迹之间的耦合,以捕获共同进化动力学。(3)在转移机制中考虑了患者间的异质性(如危险因素、治疗方法)。基于我们的模型,我们估计了溢出效应,通过耦合(即通过共病共同进化)来衡量治疗对患者轨迹的间接影响。我们基于675个健康轨迹评估了我们提出的共病- hmm,我们调查了糖尿病和慢性肝病的联合进展。 Compared to alternative models without coupling, we find that our Comoribidity-HMM achieves a superior fit. Further, we find that treatments targeting diabetes introduce a positive spill-over effect. Here a diabetes treatment decreases the risk of an acute liver disease. To this end, our model is of direct relevance for both treatment planning and clinical research in the context of comorbidities.
Skofiar穆斯塔法
带潜变量的DAG模型中的等式约束 Marloes Maathuis教授 11月- 2020
文摘:具有潜变量的有向无环图(DAG)模型提供了一种研究因果关系的正式方法,在这种情况下,并非一项研究或实验的所有组成部分都是已知的,因此被广泛应用于经济研究、机器学习和统计学。我们考虑联合概率分布的约束条件,以限制
具有潜变量的DAG模型的合适联合概率分布集。在有向无环图(DAG)中不存在潜变量的情况下,相应的联合概率分布只有条件独立约束。一旦
在DAG中出现潜在变量时,联合概率分布的约束集扩展为等式约束,其中条件独立约束是等式约束的一部分
的,和不等式约束。本文讨论了带潜变量的DAG模型中的等式约束问题。在rst中
步骤介绍了基本定义,提出了潜式DAG模型、普通马尔可夫模型和嵌套马尔可夫模型。接下来,我们描述了Tian的算法,该算法以潜在DAG模型为基础,并通过一些例子说明了算法的必要构建模块和算法本身。然后,我们引入了嵌套的马尔可夫模型,这些模型是由Tian的算法驱动的,引入了相关的理论,并创建了两个理论之间的联系。最后,我们重新制定了田的算法
在嵌套马尔可夫模型的背景下。
卢卡斯科勒
贝叶斯网络结构学习和贝叶斯网络聚类及其在mRNA表达数据中的应用 马库斯·卡利施博士
Niko Beerenwinkel教授
2020年10月,
文摘:有向无环图(dag)提供了一种通用的工具来描述和理解在许多应用中自然出现的相互关联的随机变量。由于DAG空间的巨大尺寸,学习这种模型的结构很快就会变得令人望而却步。在过去的二十年里,人们采用了许多有效的方法来解决这一问题。结构学习的贝叶斯方法是通过使用马尔可夫链蒙特卡罗(MCMC)抽样来逼近后验图。虽然计算要求很高,但使用适当的搜索空间限制仍然允许处理许多变量。我们研究了如何扩展这样的搜索空间限制,以提高精度和速度方面的性能。结果是将贪婪的DAG学习方法与邻域选择方法相结合。它能够增强所考虑的MCMC方法的学习过程,特别是对于高连通图。
然后在包含贝叶斯网络的聚类框架中测试这些方法。在使用来自乳腺癌组织的基因表达数据的实际应用中,贝叶斯网络聚类算法显示了根据已知乳腺癌亚型分离样本的能力,并揭示了特定基因的有趣行为。
吴越
状态空间模型中静态参数的估计 古恩施·汉斯·鲁道夫教授 2020年9月-
文摘:状态空间模型(SSMs)在经济学、生态学等许多领域都有广泛的应用
由观察到的和未观察到的变量组成。利用观测数据,对模型中未观测到的状态过程和未知参数进行估计。在这项工作中,我们考虑了纯科学中的状态空间模型,并进行了仿真研究。di 不同粒子过滤变量的估计性能
在模型参数已知的情况下,对模型的状态过程进行了比较。如果
有未知的参数,任务就更难了。我们实现了一种粒子马尔可夫链蒙特卡罗算法,该算法嵌入一个粒子滤波器来估计参数。
Orhun Oezbek
德国财务报表信息的自动提取 Marloes H. Maathuis教授
本杰明·冯·德施万登
2020年9月-
文摘:对于投资者、交易员和研究人员来说,财务报表包含了有关公司业绩和未来的有价值的信息。随着新技术的发展,财务报表的数字化每天都变得越来越容易。然而,人工数据录入仍然是从财务报表中提取财务信息的主要方法。与发票识别等其他文件相比,从非财务报表中提取信息面临着额外的挑战。这个项目的目的是自动
使用机器从德国财务报表PDF文件中提取信息
在学习的同时解决财务报表所面临的额外挑战。
向哥罗
从序数数据学习贝叶斯网络 马库斯·卡利施博士
杰克·柯伊伯斯博士
2020年9月-
文摘:贝叶斯网络是研究复杂系统中变量依赖结构的强大框架。学习贝叶斯网络的问题与给定的数据类型紧密相关。序数数据,如癌症的分期、评分量表调查问题、考试的字母等级,在应用研究中无处不在。然而,现有的解决方案主要针对连续和分类数据。在这篇论文中,我们提出了一种迭代的评分和搜索方法——称为序数结构EM (OSEM)算法——用于从序数数据中学习贝叶斯网络。与具有多项分布的传统方法不同,我们明确地尊重类别之间的顺序。更确切地说,我们假设序数变量起源于一组高斯变量的边缘离散化,这些变量在潜在空间中遵循一个有向无环图。然后,我们采用结构EM算法,推导出闭形式的评分函数,进行高效的图搜索。通过模拟研究,我们证明了我们的方法与替代方法相比的优越性能,并分析了可能影响学习精度的各种因素。
大卫Deuber
极端分位数治疗效果估计的分位数外推方法 Marloes Maathuis教授
Sebastian Engelke教授
锦州李
2020年9月-
文摘:分位数处理效应用于量化热浪和洪水等极端事件的因果效应。然而,极端分位数位于分布中数据稀疏甚至不可用的部分,这使得估计变得困难。虽然现有的方法能够在某种程度上估计极端分位数处理效果,
他们无法在数据范围之外进行推断。本文将极值理论中的分位数外推方法与反事实分位数的估计量相结合,构建了极端分位数处理效果的估计量。为
分位数外推,我们考虑反事实分布的极值指数的不同估计量。特别地,我们提出了重尾分布的Hill型估计器。我们证明了我们的极端分位数处理效果估计量的渐近正态性,并提出了保守方差估计程序。在不同的模拟条件下,分析了估计器的有限样本行为。此外,我们将基于希尔的估计器应用于真实数据集,以估计工作培训计划的极端分位数处理效果。与现有方法相比,基于分位数外推的极端分位数处理效果的推断是渐近的
即使在极端情况下也有效。在模拟中,使用Hill类型估计器的极端分位数处理效果估计器会导致保守的置信区间,并且在均方误差方面优于现有的方法。据我们所知-
边缘,这是关于基于外推估计极端分位数处理效果的第一个结果。
马克·麦克马洪
对标非线性格兰杰因果关系发现方法 Marloes Maathuis教授
Julia Vogt教授
国际扶轮čards Marcinkevič年代
2020年9月-
文摘:格兰杰因果关系是推断时间序列数据中变量之间关系的常用方法。虽然许多经典的推断格兰杰因果关系假设线性动力学技术,大多数现实世界的相互作用可以被认为是非线性的。因此,提供将格兰杰因果关系概念扩展到非线性环境的方法具有极大的兴趣。为此,已经提出了越来越多的方法,本文旨在对这些方法的选择进行结构化研究。在本研究中,这些方法在理论组成方面进行了比较,以及在选择数据集上的经验表现。我们首先提供每种方法及其特征的描述,然后我们继续分析它们在不同设置下的性能,并试图在此基础上得出结论。在进行这一测试阶段时,为这些模型选择超参数的问题引起了极大的兴趣。因此,我们的测试设置改变了,包括解决这个问题的方法,从分析一个特定的常用技术开始。在此基础上,我们提出了一种选择超参数的新方法,希望能在这方面有所改进。
米兰Kuzmanovic
基于因果图检验统计量的总效应估计 马图伊斯教授
莱昂哈德·亨克尔博士
2020年9月-
文摘:因果分析的主要目标之一是从观察数据中估计因果效应,如果没有强有力的建模假设,这通常是不可能完成的任务。假设数据是由因果线性模型生成的,该模型具有已知的因果DAG、未知的结构系数和共同独立的误差,可以通过协变量调整来识别和估计模型中单个干预措施的总因果效应。事实上,对于任何有效的调整集,当对该集进行条件作用时,总因果效应由总体回归系数确定,并且相应的OLS估计量是该效应的一致估计量。这意味着多个有效调整集的存在意味着因果线性模型中变量联合分布的过度识别约束,因为总因果效应可以以不同的方式识别。我们提出了一个检验统计量,可以通过比较不同有效调整集的总因果效应的相应OLS估计量来检验这一约束,在零假设下,假设的线性因果模型设置与给定的因果DAG是真正的数据生成机制。该检验主要依赖于不同条件集的OLS估计量的随机向量的渐近联合正态性,以及具有线性约束矩阵的多元高斯向量的标准瓦尔德型检验程序,其结果是卡方分布检验统计量。虽然关于因果线性模型可测试含义的文献主要集中在因果结构本身,但我们将分析的重点从检测错误指定的因果结构转移到发现感兴趣的总因果效应估计中的不一致性。我们研究了零假设下重复抽样检验的行为,并提出了支持我们发现的模拟结果。最后,功率模拟表明,有两种情况下,这种测试在实践中非常有用,以及那些功率太低而无法进行有意义的实际应用。
英豪戴
使用生成对抗网络后处理云覆盖预测 Marloes Maathuis教授
Stephan Hemri博士
Jonas bend博士
2020年9月-
文摘:云覆盖的数值天气预报模型通常表现出偏差和分散不足。在这篇论文中,我们重点研究了利用深度学习技术对COSMO-E和IFS-ENS的云覆盖综合预报进行后处理。在我们的第一种方法中,我们使用一个密集神经网络,输出21个预测的集合。在连续排序概率得分(CRPS)方面,该模型能够显著优于cosmos - e和最先进的经典统计后处理方法,即全球集成模型输出统计(gEMOS)。然而,生成的预报看起来并不真实,需要集合耦合(ECC)来继承COSMO-E预报的空间结构。在我们的第二种方法中,我们将后处理问题解释为图像处理任务,并使用条件生成对抗网络(cGAN)来生成云量预测;据我们所知,以前从未有人这样做过。该模型在CRPS方面也优于cosmos - e和gEMOS,但无法优于密集神经网络。作为回报,cGAN产生的预测比密集神经网络的预测更真实,也更准确。
Yessenalina阿
表结构识别 Marloes Maathuis教授
斯文·贝克理学硕士
2020年9月-
文摘:在这篇论文中,我们提出了一种弱监督方法来构建一个表图像的数据集,用列、行和单元格的位置标注。使用这种方法,我们从从互联网下载的word文档中构建了一个大型带注释的表数据集。
我们进一步训练了一个最先进的实例分割模型,Mask R-CNN,用于检测行、列、单元格和单元格内容位置。我们对模型参数进行微调以适应我们的问题。我们提出了一种基于规则的后处理算法来解决Mask R-CNN所做的任何重叠预测,并尝试了不同的方法来从列、行、单元格和单元格内容位置的预测中构建表结构。
在整个实验过程中,我们使用不同的评估指标和不同的基准数据集来选择参数值、最佳性能方法,并将我们的方法与其他方法进行比较。我们演示了我们的列检测器在UNLV数据集上达到了最先进的结果。列、行和单元预测的组合具有与ICDAR和cTDaR数据集上使用的最先进模型相当的性能。
克里斯汀Blesch
挑战收入不平等的单参数模型来代表收入分配:美国县级收入分配的数据驱动方法 马库斯·卡利施博士
Jachimowicz乔恩
2020年9月-
文摘:经济不平等主要是由基尼系数等单值指数衡量的。然而,这样做可能无法捕捉到不同收入分配形式的关键差异。借鉴最近在衡量不平等方面的理论和实证进展,我们将重点放在收入分配的衡量上——以洛伦兹曲线的形式进行操作——并评估充分表示这些曲线所需的参数数量。我们采用数据驱动的方法,使用美国县级收入分配的细粒度数据(N=3,056),并使用最大似然框架进行洛伦兹曲线的参数估计。这使我们能够应用赤池信息准则(AIC_c)进行模型选择,并在仿真研究中验证了AIC_c在给定设置下模型选择的可靠性。我们的分析表明,所有考虑的单参数模型都优于高阶模型。特别是,双参数Ortega Lorenz曲线模型在各种规格中表现最好。综上所述,我们的研究结果对基尼系数等单参数不平等指标的广泛使用提出了质疑,并强调了使用更恰当地反映收入分配情况的替代指标的必要性。相反,我们建议未来的研究应该集中在收入不平等的替代多参数测量上,例如奥特加·洛伦兹曲线模型的参数,我们为此提供了美国县和州一级的估计。
里特•Zihlmann
遗传评价中的广义线性混合效应模型 卢卡斯·迈耶博士
彼得·冯·罗尔博士
8月- 2020
文摘:健康和繁殖特性在世界各地的牛育种计划中越来越重要。与生产性状相比,健康性状和繁殖性状通常以名义或序数尺度进行测量,这是经典的育种价值估计
线性混合e ects模型(lmm)不合适。尽管有广泛的文献,广义线性混合e ects模型(glmm)和阈值模型在实际育种价值估计中的应用仍然具有挑战性,因为这一特定目的的软件实现的可用性有限。在本研究中,我们提供了可用的软件
包,显示它们的弱点并实现改进。这些实现在模拟数据集上进行了测试,并与估计育种值的计算时间和准确性进行了比较。最好的实现被应用于一些主要瑞士牛种群的真实世界数据集。感兴趣的特征是多胎、早期小牛存活率和胴体完整性评分。当glmm和阈值模型应用于模拟的二元和序数性状时,与lmm相比,glmm和阈值模型明显改善了育种值的预测。贝叶斯实现对于小数据集执行相对较慢,但通过考虑方差分量估计的不确定性,返回了估计育种值的可信标准误差。改进也带来了较高的计算成本,然而,通过假设已知的方差分量,成本大大降低。通过分别估计方差分量和动物育种值,类似的策略成功地应用于更大的真实世界数据集。本研究表明,glmm和阈值模型可以而且应该应用于非正态性状,以改善估计性状的性能
育种价值和获得无偏遗传力估计,允许充分的选择指标的结构。
Cyrill Scheidegger
条件独立检验:加权广义协方差测度 彼得博士教授Bühlmann
Julia Schulte博士
8月- 2020
文摘:在本文中,我们引入了加权广义协方差测度,这是一种条件独立性的检验。我们的检验是Shah和Peters(2018)最近引入的广义协方差测量的延伸。为了检验X和Y在给定Z时条件独立的原假设,我们的检验统计量是非线性回归X和Y在Z上的残差之间的样本协方差的加权形式。我们对单变量和多元X和Y提出了不同的检验变量。我们给出测试产生正确的第一类错误率的条件。最后,我们比较我们的测试与原始的广义协方差测量使用模拟。通常,与广义协方差测量相比,我们的测试对更广泛的替代方案具有力量。这样做的代价是,相对于广义协方差测量效果良好的替代方法,它们的能力更弱。
穆罕默德·阿里·塔默尔
正则化高维协方差估计方法及其在机器学习和投资组合理论中的应用 马库斯·卡利施博士 8月- 2020
文摘:
协方差估计在现代多元统计分析中起着至关重要的作用,许多实际应用需要精确估计高维协方差和精确的矩阵。在最近的研究中,为了克服小样本协方差估计中的维数问题,提出了许多参数和非参数方法。
本文综述了正则化协方差矩阵估计的最新进展,重点介绍了基于组份正则化(带化、变细化、阈值化)、收缩法和惩罚似然法的估计方法。首先,为了使读者更好地理解所实现的方法,我们对高维协方差构造中使用的正则化技术进行了简要的理论介绍。接下来,我们进行蒙特卡罗模拟研究,以比较所选方法在几种不同协方差结构下的性能。对于所有的模拟,我们涵盖了三个不同的场景——ios p < n, p = n和p > n,并报告了Kullback-Leibler散度作为性能的度量。此外,我们还通过计算Frobenius距离的平方和谱损失来评估正则化协方差估计的准确性。
最后,我们展示了高维协方差在监督机器学习任务和马科维茨最小方差投资组合优化问题中的实际数据应用。对于后者,我们用美国股票市场的收益数据进行了比较。
索菲亚·k·梅特勒
诊断序列间隔可作为COVID-19大流行期间接触者追踪有效性的指标 Marloes H. Maathuis教授 8月- 2020
文摘:背景

临床发病序列间隔常被用作传染病传播序列间隔的代表。对于SARS-CoV-2/COVID-19,由于没有常规记录症状发作日期,且无症状携带者不存在症状发作日期,因此关于临床发作序列间隔的数据有限。
方法

我们将诊断序列间隔定义为感染者和被感染者诊断日期之间的时间。基于韩国SARS-CoV-2/COVID-19的DS4C项目数据,我们估计了诊断序列间隔、临床发病序列间隔以及两者之间的差异的均值。我们使用平衡聚类自举方法构造95%自举置信区间。
结果

诊断序列间隔的平均值估计为3.63天(95% CI: 3.24, 4.01)。诊断序列间期明显短于临床发病序列间期(估计平均差值-1.12天,95% CI: -1.98, -0.26)。
结论

韩国的SARS-CoV-2/COVID-19诊断序列间隔相对较短可能是由于该国在接触者追踪方面做出了广泛努力。我们建议将平均诊断序列间隔作为一个国家接触者追踪有效性的新指标,作为流行病监测的一部分。
卡丽莎·惠特尼·里德
混合数据中的贝叶斯网络结构学习 Marloes Maathuis教授
杰克·柯伊伯斯博士
8月- 2020
文摘:贝叶斯网络和其他图形模型是定义和可视化表示复杂域上联合分布的强大工具。然而,大多数常用的贝叶斯网络学习方法都无法处理混合数据。这是一个重要的挑战,因为异构数据在大多数学科中无处不在。在混合情况下学习贝叶斯网络的主要问题是表示不同数据类型的节点之间的条件分布——因为这对于推导结构学习中使用的似然函数和条件独立性测试是必要的。
解决这个问题的一种方法是通过离散连续变量或使用内核将数据表示为连续变量,将数据强制转换为单一数据类型。另一个方向采用参数方法,使用节点回归。本文探讨了基于分数和基于约束的结构学习方法之间的等价性,通过推导基于现有的基于约束的混合数据学习方法的评分标准。目的是通过两种方法推导一个评分标准:参数似然比检验方法;以及非参数核对齐方法。一般来说,参数化方法是性能最好的方法。具体来说,结果表明似然比检验PC通常比任何其他考虑的方法更能重建更精确的图形。
Colin David Grab
一种最大熵深度强化学习的金融投资组合优化方法 Bühlmann教授 8月- 2020
文摘:在深度强化学习的框架下,提出了一种具有交易成本的金融多资产组合优化算法。在介绍了强化学习的基本框架和定义之后,本文提出了一种新的无模型算法方法,该方法结合了来自深度强化学习的多种思想,并将其应用于金融投资组合优化问题。具体而言,基于辅助任务和预测知识的概念,提出了一种构建金融市场环境下自监督状态估计器的方法。利用这一概念,它作为一种基于最大熵强化学习的新型投资组合优化算法的输入。给出了投资组合优化过程的基本数学推导和结果。结果表明,尽管该算法的方法相当复杂和复杂,但其结果具有清晰和直观的金融解释。
凯文·邓肯
电力市场价格与订单簿德国日内电力市场研究 Sornette教授
Bühlmann教授
8月- 2020
文摘:为了防止停电,进出电网的电流必须保持平衡。因此,每个电力市场参与者都必须向输电系统运营商宣布未来某个时间点的供应或需求。如果参与者不遵守自己的预测,即导致不平衡,则应支付费用。为了履行他的义务,参与者可以在“日内”市场上交易电能。上述费用的金额与平均价格直接相关,平均价格是由交易期结束时执行的所有交易计算得出的。因此,在交易期间,即在大多数相关交易执行之前,能够预测这个平均价格,以便做出明智的交易决策,是非常有价值的。本文探讨了仅考虑“订单簿”信息来预测平均价格的选项。关于电力市场订单信息的研究仍然很少。此外,据作者所知,以前没有发表的工作调查了订单书信息对电力市场短期价格预测的预测能力。我们建议分别对价格变化的符号和幅度进行建模。 Employing Linear Models, Random Forests and LSTM Recurrent Neural Networks, we can show that the volume distribution in the order book contains information about future prices. The findings of this thesis are based on the complete order book data of the EPEX Spot German continuous intraday power market for the year 2019, which was generously made available by BKW Energie AG.
Ruicong么
局部差分隐私下的极大极小收敛速率 Sara van de Geer教授 8月- 2020
文摘:随着个人数据的日益细化,数据隐私已成为统计分析中的一个重要问题。许多隐私保护程序是在过去几十年里衍生出来的。其中,局部差分隐私以其安全性和便捷性而被广泛应用。在这种设置中,用户数据首先被扰动,然后发送到可靠的服务器。因此,即使服务器受到攻击,也没有任何风险。然而,问题是统计效率的代价是否可以接受?

在本论文中,我们将研究局部差分隐私下的极大极小收敛速度。我们将首先介绍极小极大问题的私有Le Cam, Fano和Assouad方法,并详细解释技术部分。然后用它们来估计位置族模型、非参数回归模型和凸风险最小化的极大极小收敛速度。仿真结果将对理论进行说明。最后,我们将证明在极小极大意义上近似局部差分隐私下机制最优的两个必要条件。
哈拉尔德Besdziek
随机矩阵理论,及其在数据科学中的应用 Sara van de Geer教授 2020年7月
文摘:随机矩阵理论(RMT)是上世纪50年代在量子物理的背景下发展起来的,已经成为概率论中一个非常活跃的研究领域,与广泛的数学领域有联系。最近,RMT在数据科学中得到越来越多的应用,因为它能够处理许多经典统计方法无法处理的高维数据集。本文针对具有数据科学或统计学背景的读者,对RMT进行了介绍。从最基本的开始,它移动到RMT研究的前沿主题及其在数据科学中的应用。
本论文共分五章。第一章给出了简要的动机和前提条件。第2章回顾了线性代数中的事实,并提出了与RMT有深刻联系的高级概率论中的两个概念:测度的集中和普遍性。第三章介绍了不同类型的随机矩阵,证明了关于随机矩阵谱的著名结果半圆律和marenko - pastur律。第四章是本文的主要部分,分析了随机矩阵的算子范数,推导了高斯随机矩阵特征值的联合分布,最后利用这个联合分布给出了特征值间距的精确结果,这是与目前RMT研究密切相关的一个课题。最后第五章介绍了线性谱统计量,即依赖于随机矩阵特征值的统计估计量,并将其用于高维模型的协方差估计。在前面章节中开发的技术能够证明经典统计理论在这种情况下失败,并提供解决方案。
Na] ïm吕西安·德·维拉
重采样,块重采样和保守块长度选择 马库斯·卡利施博士 2020年6月,
文摘:自举抽样和子抽样是两种核心的重采样技术。对于iid数据,我们
有n-bootstrap和m-bootstrap来画n和m < n的观测值吗
我们进一步进行子抽样,在不进行替换的情况下提取m < n个观测值。对于相关数据,我们有类似的块重采样技术,它从长度为m的数据块中组成重采样。(这三个m是不同的实体。)首先介绍了n-bootstrap、m-bootstrap、(块)子抽样和块bootstrap,并比较了它们的理论性质。接下来,我们将介绍算法
本文讨论了m-bootstrap,(块)子抽样和块bootstrap的最大实际障碍:如何选择m。然后我们探讨了重采样技术和这些算法在置信区间构造中的整样本性能。对于iid数据,我们看两个n-引导一致性的主要示例
和不一致。后者应通过m-bootstrap和子抽样来解决。对于非iid数据,出于实际原因,我们考虑线性回归coecients,只考虑块引导。由于选择m作为块自举的结果非常不满意,我们提出了一种在置信区间的情况下的新算法
建设。我们展示了它在客户的线性回归中表现出色。最后,我们还提供了一个关于R块引导的独立教程(包括我们的算法),并提供了详细的代码示例。
卢卡Mosetti
宏观经济和金融变量对信用风险的影响 Fadoua Balabdaoui博士
米尔科Moscatelli
2020年5月-
文摘:为了建立基础经济条件和信用风险迁移之间的联系,许多研究在评级转移概率建模中纳入了宏观经济解释因素。该项目旨在为全系统贷款数据建立一个将信贷质量状态与宏观经济和金融变量之间的过渡矩阵联系起来的模型。这些总体转换矩阵可用于监测经济中信贷质量的演变,并产生有条件的预测。现有研究的一个新颖之处在于,转换将基于贷款质量的监管类别(表现良好、不太可能偿还和资不偿债),而不是债券评级,并且将同时涉及非上市公司和上市公司。
甄崔
基于Wasserstein距离的估计量构造 Sara van de Geer教授 2020年5月-
文摘:参数估计是统计理论中的一个重要课题。在这项工作中,我们将建立一个基于Wasserstein距离的估计器。Wasserstein距离的概念来源于最优传输,估计量属于最小距离法。我们将首先
介绍两个相关的主题。然后,我们给出了估计量和Wasserstein距离的一些性质,其中包括实数上Wasserstein距离的简单形式
线,Wasserstein距离和估计量的收敛性和Wasserstein距离的极限速率。为了说明理论结果,我们将给出几个例子
仿真与验证。最后,本文将从信息几何的角度讨论我们的方法。
丹尼尔•史密斯
排列检验及其在方差分析和线性模型中的应用介绍提交日期:14.04.2020导师:博士。 卢卡斯·迈耶博士 4月- 2020
文摘:排列检验定义了一类以给定数据为条件的非参数检验。虽然许多测试程序是基于基本分布在一定程度上已知的假设,但排列测试的限制性较小。通过对数据进行条件作用,排列检验是无分布检验,因此可以在最小的假设下应用于广泛的决策问题。中心假设是指排列单元的互换性,使测试程序精确。这两个性质——精确性和不受分布影响的性质——使得排列测试成为参数测试非常有吸引力的替代品
测试程序,通常依赖于可能无法满足或验证真实数据的假设。这篇论文提供了一个一般的介绍,精确和近似排列检验应用于方差分析设计和线性模型。第一章介绍了
应用于参数检验的一般统计检验问题,举例说明。第二章提供了排列测试的介绍和一般设置,重点介绍了位置参数的单样本和双样本排列测试作为参考。
第二章说明了排列检验的直观性,第三章致力于排列检验的数学框架,并验证了排列检验的精确性和无分布性。第四章讨论了排列框架下的方差分析模型。一方面,介绍了精确测试程序的一般方法,以便进行测试
方差分析模型中包含的一个因素的显著性
测试存在。另一方面,本章同样致力于不存在精确测试的情况下的近似测试过程。最后一章给出了线性模型的排列检验。首先,研究了精确检验的情况,然后比较了线性模型框架中近似排列检验的三种方法。插入的R代码是由作者创建的,目的是为了说明测试过程的一些核心方面。许多置换的更复杂的实现
R中的测试可以在包lmPerm和coin中找到。得到一个干净而漂亮的
自行创建的R函数的输出,附录中列出的打印方法应在使用函数之前在R中执行。但是,所有函数都可以在没有这些新的打印方法的情况下执行,从而创建一个列表作为输出。
贝琳达穆勒
基于短时静止音频信号的呼吸相位实时分类 马库斯·卡利施博士
Tobias Kowatsch教授
亚尼克·泽维尔·卢基奇
4月- 2020
文摘:移动应用Breeze由Shih, Tomita, Lukic, Reguera, Fleisch和
Kowatsch(2019)指导慢速呼吸训练,以促进心理健康和改善心脏功能。该应用程序指导特定的呼吸模式,同时记录并将用户的呼吸分为吸入、呼气和暂停,以提供可视化的游戏化生物反馈。到目前为止,Breeze实现了很高的分类精度,但依赖于大的时间上下文进行预测,从而导致反馈
延迟可能会对用户造成不利影响。这项工作重新设计了现有的分类算法,实现了呼吸阶段的实时分类
不影响准确性。这种新方法的核心成分是i)只依赖于短的、固定的时间上下文的音频特征,以及ii)管理良好的偏差-方差权衡以适应高方差的分类方法
这是由不同的用户在不同的声学环境中引入的。

我们离线评估了Shih等人(2019)收集的20名受试者的3分钟呼吸记录。在这项研究中,参与者被指示遵循特定的吸气、呼气和暂停的时间模式。为了测试我们的
方法,我们设置了一个多类分类问题,包括吸气、呼气和暂停,再加上一个额外的噪声类,它包含了所有使呼吸信号难以分辨的背景噪声。我们发现,通过梯度树增强,我们可以在23ms的短时间背景下实现86.2%的准确率。这些结果
代表了向实时有效生物反馈的Breeze迈出的重要一步。需要进一步的研究来确定我们的方法在智能手机中实现时的潜在运行时瓶颈,并评估其对不同用户、声学环境和不同供应商的智能手机麦克风之间的高方差的鲁棒性。
葵花籽油Haziri
具有局部结构保存的自动编码器的无监督特征选择 Marloes H. Maathuis教授
锦州李
3月- 2020
文摘:机器学习环境中的高维数据集在计算成本、准确性和学习模型的低可解释性方面带来了困难。
特征选择(FS)是一种降维技术,旨在选择一个易于解释的特征子集,而不损失大量的信息。本文主要研究无监督FS,由于缺乏通常引导相关特征搜索的类标签,这是一个研究较少且更具挑战性的问题。
我们首先回顾了最先进的方法,这些方法利用光谱聚类工具,并根据它们对保留初始数据集的局部邻域结构的重要性对特征进行评分,从而开始了我们在这个领域的旅程。然后,我们研究了一种使用带有结构正则化的AutoEncoders的方法,以选择能够重建每个初始特征的特征子集。
本文的主要贡献是将这两种方法合并为一种方法。我们首先建议用一个约束来增强现有的AutoEncoder设置,以确保在过渡到由AutoEncoder的隐藏层提供的低维表示时保留初始的局部邻域结构。
其次,我们提出了一种方法,在改进的深度神经网络的帮助下学习预先构建的邻域结构保持嵌入,并根据特征对目标构建的重要性选择特征。
我们还提出了三种评估方法来评估所选子集的质量
关于特征,其中我们提出了一种选择所提议技术的惩罚参数的方法,优化由其中一个评价指标提供的结果。
在本文的最后一部分,我们在不同的基准数据集上进行了实验
为了将所提方法的性能与现有技术进行比较。具体来说,我们通过实验验证了额外保留局部邻域结构是否改善了特征选择过程。正如预期的那样,所提出的方法在量化所选特征子集能够在数据中的自然聚类之间进行区分的度量方面取得了改进。
亚莉克希亚Pastre
了解癌症进展中的突变顺序 Marloes Maathuis教授
J. Quackenbush教授
r·伯克霍尔兹博士
3月- 2020
文摘:基因突变随着时间的推移而积累,并导致癌症的发展。这种突变发生的顺序提供了对癌症进展的见解,并可能有助于长期识别
通过靶向治疗进行药物干预的关键时间点。我们的模型
中发生的级联过程中突变的连续积累
(未观察到的)有向无环图(DAG)上的离散时间,由具有二进制状态的相互作用突变形成。这项工作的目的是推断DAG和级联模型参数
基于在基因水平上总结的突变数据。这些暗示了时间突变的可能顺序,但我们只观察到所提议的级联过程的最终状态。在这种情况下,我们使用贝叶斯
在BiDAG (R)中开发的网络学习框架用于推断后验
DAGs和级联模型参数的分布。我们将这种方法应用于结直肠癌数据,并对比来自两个更一般的参数传播模型的结果。此外,我们还证明了我们的方法在合成数据上的一致性。
Hongkyu金
回归间断设计 Marloes Maathuis教授 3月- 2020
文摘:回归间断(RD)设计是观察性研究的一个分支,它在局部上类似于随机实验,用于估计完全或部分由某个变量和阈值分配的治疗的局部因果效应。由于研发设计是因果推理的主题,本文将涵盖因果推理的重要概念,以便正确地进行讨论。在此基础上,阐述了研发设计的基本思想和结构,包括锐化研发设计和模糊研发设计。此外,还阐述了研发设计的假设,这些假设在不同领域略有不同。为了准确地估计局部因果效应而不产生混淆,我们引入带宽并只使用距离阈值带宽范围内的数据。由于仍然没有找到“好”带宽的固定方法,我们提出了一种新的带宽选择方法以及两种现有的方法。将这些带宽选择方法的性能与模拟数据进行比较,可以推断出新提出的方法可以获得更好的结果。最后,我们故意违反了无混淆性假设,并利用模拟数据分析了三种潜在的混淆模型。
费边Patronic
混合模型的预测 卢卡斯·迈耶博士 3月- 2020
文摘:
本文对混合模型进行了介绍,并对不同的预测区间估计方法进行了仿真比较。估计这种间隔的问题在于由随机效应引起的额外变化来源。点估计通常由最佳线性无偏估计器BLUE估计,贝叶斯方法除外,它使用后验分布的均值。边际和条件预测采用最佳线性无偏预测器BLUP的预测误差。这些误差是由BLUP的分布估计的(Henderson 1950)。通过自举方法估计的预测区间模拟了BLUE与自举样本相比所产生的误差。结果表明,采用贝叶斯统计的方法具有最好的覆盖率。它使用后验分布及其分位数作为预测区间。最后,给出了一个奶酪品尝的例子,并给出了如何使用R中的不同方法的指导。
这张Hemmig
因果推断和低秩估计 彼得博士教授Bühlmann
Armeen Taeb博士
3月- 2020
文摘:在这篇论文中,我们研究了具有少量潜在混杂因素的因果高斯模型。更准确地说,我们的目标是在给定一个独立观测样本的情况下,估计观测变量的底层有向无环图结构的马尔可夫等价类。这个问题可以表述为一个优化问题,其中潜在的共构结构对应于一个低秩约束,这是非凸的,很难处理。我们研究并实现了处理这一优化问题的算法,使其在计算上更具可行性。一种是基于核范数正则化的算法,另一种是基于投影梯度下降的算法。
丹妮拉阮
Rasch模型及其从统计角度的扩展 卢卡斯·迈耶博士 3月- 2020
文摘:拉什模型是最经典和最流行的心理和教育测试模型。在这篇论文中,我们介绍了Rasch模型及其性质,以及它与逻辑回归的对应关系。由于完全最大值不一致
似然估计,我们提出了两种可供选择的方法为项目参数估计的基础上,考虑人的参数。我们还对Rasch模型进行了不同的扩展,可以考虑多分响应,也可以放宽Rasch模型的一些限制性假设。
在整个研究过程中,R中的一些实现支持评估方法和模型。
Lorraine Electre Bersier
基于删减数据估算实际需求 Marloes H. Maathuis教授
亚历山德拉Stieger-Federer
3月- 2020
文摘:
为了准确规划瑞士各地的铁路货物运输,必须提前了解实际需求。然而,在SBB Cargo的订舱过程中,上述需求并未存储。因此,大多数预测都是基于货物的有效运输数量,而不是基于客户的需求。为了能够在未来提出一个更有吸引力的报价,这篇硕士论文得出了未满足客户需求的百分比估计。
首先对SBB Cargo的订舱系统进行了深入的调查和说明。研究发现,制约需求的最重要因素是列车司机和机车的数量、线路的可用性和列车的载客量。本文的重点是最后一个问题。
然后,解释了用于估计删减数据分布的各种统计方法。提出了几种截尾参数模型,并推导了它们的右截尾对数似然函数。此外,描述了如何检验截尾参数分布的拟合优度,并解释了截尾数据的两种非参数最大似然估计方法。
之后,可以观察到列车的载客率变量似乎在约90%和110%的值处被截尾。为了从该变量中获得无约束需求,拟合了截尾参数分布。威布尔分布被证明是最准确的分布。通过这种方法,可以观察到,由于列车运力有限,大约8.9%的客户需求没有得到满足。这个价值是非常鼓舞人心的。事实上,SBB Cargo估计,由于各种限制因素,约有11%的客户需求未得到满足。最后,这表明使用截尾威布尔分布来估计有界列车运力变量的需求,可以得到非常有希望的结果。
Helgi Halldorsson
使用部分删除和多重Imputation对部分观测数据的因果推断 Marloes Maathuis教授
伦纳德亨克尔
3月- 2020
文摘:数据缺失是一个常见的问题,它会严重影响任何分析。部分删除和多重Imputation (MI)是允许我们使用需要完整数据的估计器的两种方法。在本文中,我们提供了充分的图形条件,使我们能够修改调整公式,在使用可用案例分析(部分删除的一种特殊情况)时,使用缺失值的数据推断因果关系。图形条件使用m图,或缺失图,这是因果图的有用扩展,允许我们将缺失的原因编码到因果图中。对于MI,我们将重点放在联合建模(JM)上,它同时为每行添加每个缺失值。下面是关于JM的替代方案——完全条件规范的简短讨论。我们还提出了一个改进的调整公式,它利用PD和MI,首先删除变量子集中缺失值的行,然后输入剩余的缺失值。最后,我们放宽了先前结果的条件,以避免因缺失数据而引起的任何偏差,但混淆偏差仍然存在。
雷蒙娜韦氏
检测接受免疫治疗的非小细胞肺癌患者的预测性生物标志物:苏黎世大学医院数据的回顾性分析 Marloes H. Maathuis教授
医生,亚历山德拉·库里奥尼
Stefanie Hiltbrunner博士
3月- 2020
文摘:本论文的目的是揭示免疫治疗对非小细胞肺癌患者总生存期和肿瘤反应影响的可能的预测性生物标志物。使用的数据收集自2014年3月至2019年1月在苏黎世大学医院接受免疫治疗的患者。分析对两组患者进行。在免疫治疗前接受化疗的患者被称为进一步一线IT患者,而在一线接受免疫治疗,有时联合化疗的患者被称为一线IT患者。应用的方法有生存分析、随机森林和逻辑回归。
通过对免疫治疗对总生存期的影响进行生存分析,对每个患者组检测出一种可能的预测生物标志物。进一步研究表明,肿瘤细胞中PD-L1表达较高的IT患者比表达较低的患者有更长的总生存期。在一线IT组中,淋巴细胞计数较高的患者比淋巴细胞计数较低的患者有更长的总生存期。这些结果必须谨慎对待,因为在这项工作中出现假阳性结果的风险非常高。所揭示的生物标志物应通过进一步的研究来验证。
在免疫治疗3个月和6个月后,通过随机森林分类或logistic回归对肿瘤反应进行分类,未检测到预测性生物标志物。患者群体很小,因此在本论文的所有分析中,错过真正的预测性生物标志物的风险很高。
作为这项工作的一个单独部分,描述了p值搜索的风险,并进行了模拟来显示问题的执行。p值搜索和多重检测是许多临床研究中的巨大问题。
Lorraine Electre Bersier
基于删减数据估算实际需求 Marloes Maathuis教授
亚历山德拉Stieger-Federer
3月- 2020
文摘:为了准确规划瑞士各地的铁路货物运输,必须提前了解实际需求。但是根据SBB Cargo的订舱流程,因为不同的原因,所以没有真正的需求。因此,大多数预测都是基于货物的有效运输数量,而不是基于客户的需求。
需求。为了能够在未来提出一个更有吸引力的报价,这篇硕士论文得出了未满足客户需求的百分比估计。

首先对SBB Cargo的订舱系统进行了深入的调查和说明。研究发现,制约需求的最重要因素是列车司机和机车的数量、线路的可用性和列车的载客量。本文的重点是最后一个问题。

然后,解释了用于估计删减数据分布的各种统计方法。提出了几种截尾参数模型,并推导了它们的右截尾对数似然函数。此外,描述了如何检验截尾参数分布的拟合优度,并解释了截尾数据的两种非参数最大似然估计方法。

之后,可以观察到列车的载客率变量似乎在大约90\%$和110\%$的值被审查。为了从该变量中获得无约束需求,拟合了截尾参数分布。威布尔分布被证明是最准确的分布。据此,计算出由于列车运力有限而导致客户需求得不到满足的比例。所发现的价值是非常令人鼓舞的。事实上,这个值接近于SBB Cargo使用所有限制因素计算的值。最后,这表明使用截尾威布尔分布来估计有界列车运力变量的需求,可以得到非常有希望的结果。
大卫。Luzzati
DSGE模型中的自我诱发危机 Fadoua Balabdaoui博士
Michael Benzaquen教授
2020年2月,
文摘:近年来,“重新思考宏观经济学”的新方法开始进入中央银行和智库。然而,动态随机一般均衡(DSGE)模型一直是货币政策的主力,尽管它们在2008-2009年金融危机中表现不佳。在这项工作中,我们提出了一个模型,该模型的灵感来自于标准效用中的货币DSGE,但由于存在个人持有现金和债券倾向的反馈机制,该模型有所不同。也就是说,人们在优化自己的标准效用函数之前,也会看看别人在做什么,这与KUWJ(保持攀比)现象类似。我们的目标是双重的。首先,我们要证明这种机制的存在是导致系统经历相变的原因,即从一个平衡点到三个平衡点。其次,我们计划使我们的模型尽可能一致,而不会导致凯恩斯主义异常,如零下界或依赖理性预期理论来解决消费的欧拉方程。
埃利奥特·利罗伊·贝克
域泛化和数据集转移 Nicolai Meinshausen教授
Christina Heinze-Deml博士
2020年2月,
文摘:机器学习算法,特别是人工神经网络,目前用于各种计算机视觉应用。在训练数据和测试数据是由相同的分布生成的情况下,这些方法在许多任务上实现了良好的预测性能。然而,在训练数据和测试数据之间的分布变化下,相同的方法往往表现不佳。领域泛化(DG)方法试图解决这个问题。在本论文中,我们实现了一种最先进的DG方法。此外,我们使用基准数据集将我们的实现结果与原始论文中报告的结果进行比较。我们发现,由于各种原因,重现原始结果是一项艰巨的任务。我们还发现,DG基准数据集中包含的分布变化可能不够具有挑战性,不足以为新提出的DG方法的泛化能力提供证据。
Stanimir伊万诺夫
个人住房抵押贷款违约和提前还款的随机森林固定区间生存分析 M.K. (Marc) Francke教授
A. A.(亚历克斯)德赫斯
2020年2月,
文摘:荷兰国家抵押贷款担保(Nationale Hypotheek Garantie,或NHG)是一项政府支持的住宅抵押贷款计划,为因疾病、失业、离婚或伴侣死亡等不幸事件而违约的情况提供保险。全民健康保险的一个核心问题是确定个人担保的风险,这也是所有其他保险计划所共有的问题。本文开发了一个用于固定间隔生存分析的随机森林模型,该模型根据个人抵押贷款当前所有可用信息,提供了未来一年抵押贷款违约和提前还款概率的动态预测。它考虑了个人抵押贷款的基本特征以及随时间变化的经济数据。它被拟合为一个具有分裂规则的分类森林,按持续时间对事件进行分层。预测可以用现有的随机森林软件在应用后处理步骤后完成,该步骤恢复森林中每个叶子的估计间隔危险概率。一个重要的考虑是,为了减轻类不平衡引起的问题,有必要通过对大多数类进行子抽样来引导平衡数量的事件。与固定区间数据的广义线性考克斯模型相比,固定区间随机森林能够估计有意义的事件特定生存曲线,将违约和提前支付从活跃抵押贷款中分离出来。尽管区分提前还款和违约仍然很困难,但特定事件的生存曲线可以提供对个人抵押贷款风险概况的洞察。
Christoph Schultheiss
用于高维后选择推理的多雕 彼得教授Bühlmann
克劳德Renaux
2020年2月,
文摘:我们考虑高维(广义)线性模型的后选择推理。数据雕刻(Fithian et al., 2014)是执行这一任务的一种有前途的技术。然而,它受到模型选择器的不稳定性的影响,因此导致可复制性较差,特别是在高维设置中。在多重分裂的启发下,我们提出了多arve方法,以提高其稳定性和可复制性。此外,我们将现有的概念扩展到群体推理,并说明了该方法对广义线性模型的适用性。

2019

学生 标题 顾问(s) 日期
Eufemiano Fuentes Pérez
回顾了常用估计量的自举原理和自举置信区间的覆盖分析 马库斯·卡利施博士 12月- 2019
文摘:
自bootstrap是一种统计技术,自从Efron(1979)提出以来,它已经存在了40年。它在实践中被广泛使用,但许多从业者并不完全了解它的局限性,以及在哪些情况下它有效或无效。这篇论文试图解决这个问题,首先深入研究了bootstrap的理论基础,然后分析了它在实践中某些场景下的表现。第一章首先介绍了bootstrap,它的基本原理以及它是如何工作的。第二章讨论了引导什么时候起作用(一致性),什么时候不起作用,如果它起作用,那么它以什么样的速率起作用(准确性)。第3章探讨了一些一阶和二阶精确的自举置信区间,介绍了一种提高自举区间的通用技术,称为双自举,并给出了两个最著名的R包来实现自举。第四章说明了在不同情况下对样本均值、样本中位数和样本(Pearson)相关系数进行覆盖分析的结果,这些系数是通过模拟计算得到的。第五章对全文进行了总结,并给出了一系列结论。最后,第6章概述了我们想进一步探讨但没有时间的有趣点和主题。
彼得罗均
拟合加性模型的实用方法 卢卡斯·迈耶博士 2019年10月,
文摘:在处理数据时,一个常见的挑战是确定将一些预测器与响应变量关联起来的函数。通常这种关系是相当复杂的,需要平滑的方法来检测它的形状。

本文的目的是为这种未知光滑函数的近似提供不同的方法。特别地,这些近似结果将用于加性模型的拟合。给出了该方法的基本理论特征,并通过实际仿真进行了验证。

建立可靠序列de Bruijn图的误差修正 马库斯·卡利施博士
Gunnar教授Rätsch
安德烈·卡尔斯博士,米哈伊尔·卡拉西科夫
2019年9月-
文摘:尽管de Bruijn图是生物信息学中许多应用的基本数据结构,但从高通量测序数据中可靠地构建这些图仍然是一个挑战,特别是在复杂的环境中,例如宏基因组测序,其中基因组的测序覆盖不均匀,并且很难从罕见基因组中纠正测序错误。在这里,我们提出了一种新的纠错方法,该方法结合了多个宏基因组样本的错误模式信息,并表明所提出的方法优于其他最先进的在模拟数据集上的测序纠错方法。该算法分为两步。首先,它尝试恢复生成序列的底层基因组,然后根据推断的基因组信息分解图。我们进一步表明,所提出的方法生成的图形碎片较少,并且可以为下游分析(例如基因组组装)产生更好的结果。
托马索Portaluri
可重复性:复制研究成功的定量衡量标准 马库斯·卡利施博士
Em. Werner Stahel教授
2019年9月-
文摘:随着科学危机的持续,研究的可重复性已成为科学可信度的关键。但是,是什么让复制成功呢?尽管这个话题在各个领域都得到了越来越多的关注,但对于如何定义复制成功并没有达成共识。此外,目前对复制的评估要么依赖于对影响的显著性和方向的定性判断,要么提供标准化的量化。本文旨在克服这两个问题,提出了一个定量的衡量复制的成功,效应大小差异,它允许比较非标准化的效果。提供了一个通用的数学框架,以及最常见的统计模型的一些操作;为了演示目的,还提供了一个实际复制项目中的计算示例。
Jiawen勒
系统交易策略的机器学习方法 彼得博士教授Bühlmann
Markus Leippold教授
2019年9月-
文摘:本文综合研究了一组股票收益预测因子的可预测性。特别是,基于矩的变量,如符号跳跃和已实现的偏度,是根据日内高频数据计算的。基于每个单独的变量,股票被分为五分位数的投资组合,通过购买顶部五分位数的股票和出售底部五分位数的股票来构建零净投资的多空投资组合。对于许多变量,多空组合报告了经济上较大的周和月收益,并且在调整系统风险因素的影响后,收益在统计上仍然显著。这表明预测变量与未来股票收益之间的关系很强,这种关系没有被系统风险因素捕获。
为了研究在回报预测中同时合并多个变量的好处,采用了各种机器学习方法来组合预测器。根据机器学习预测构建相应的投资组合。对于所有的机器学习方法,从底部的五分位数到顶部的五分位数,平均周收益呈单调增加的模式,这表明实际的周收益与机器学习预测一致。与单变量排序投资组合相比,机器学习投资组合在任何时候都能提供相对稳定的回报,包括在市场发生重大动荡的时间段。月度机器学习投资组合的结果类似,除了预测器组合的可预测性似乎弱于周回报预测。

关键词:横截面收益预测;基于当下变量;机器学习策略;高频数据。
这里Durić
图的趋势过滤 Nicolai Meinshausen教授 2019年9月-
文摘:趋势过滤是一种广泛应用于各种学科的技术,无论是在单变量设置上还是在图上。l1图趋势过滤估计定义为惩罚最小二乘准则的最小值,其中惩罚项和绝对k阶离散图差。由于l1范数的使用,它表现出了高水平的局部自适应,这不能由通常的基于l2范数的图平滑器表现出来。此外,l1图趋势滤波估计由于l1范数而具有分段多项式结构的特征。本文的目的是通过应用说明l1图趋势滤波方法的巨大价值及其特点,并为其实现编写合适的代码。首先,为了将该方法应用于我们的数据集,我们需要建立一个模型,为此我们使用统计软件r。在所有必要的工具制作完成后,我们对真实的气候数据集进行数据分析。该方法充分适用于两种不同的实现,每一种都对应于选择数据的每种方式。最后,我们对两种设置性能进行了比较。
关键词:趋势滤波,图平滑,l1正则化,分段多项式估计,局部自适应
汉娜Muelder
聚合社会网络中的个体社会群体感知 Marloes Maathuis教授
Christoph Stadtfeld教授
András Vörös博士
2019年9月-
文摘:
社会团体在社会和个人生活中发挥着重要而多样的功能,制定和塑造规范、行为,提供指导或支持。因此,它们的性质,如组织结构、功能和结构,是多样化的。社会网络分析中对社会群体的研究主要集中在分析概念(如派系、宗族)或社区检测。这两种方法都是从二元关系中获得群体,例如友谊观念,并优化以寻找具有特定结构属性的群体。这并不一定符合成员的认知,也不一定与社会群体结构的多样性相结合。因此,需要一种方法来识别在结构和功能上各不相同的社会群体。我们通过使用个体社会群体感知(ISGP)数据、研究参与者的自我报告群体及其成员来解决这个问题。我们首先提出了一种层次聚类,通过聚合重叠的感知来派生组。其次,我们探讨了这些组的结构和组成,以验证方法和探索未来的研究。
我们的群体感知数据是来自瑞士学生生活研究的一年级学士学生的横断面观察,这是一项纵向的社会网络调查。变量包括网络数据,例如友谊、个人和群体属性。Central是isgp的新衡量标准:个人报告他们所属的小组,以及其他小组成员的姓名。这里的问题是,每个成员对谁属于这个群体的看法可能会有所不同。为了找到社会群体的合理表征,我们需要逐步将个体感知聚合为聚合社会群体感知(ASGPs)。ASGP包括一个自我列表(报告聚合的isgp)和一个被提名为组成员的改变者列表。
对于聚合过程,我们开发了基于不同群体感知之间重叠的相似性度量。这个测量的范围从0到1,其中1代表完全准确:所有自我对所有成员的看法一致,0不准确:小组成员的看法没有重叠。重要的是,该度量允许合并ISGPs和ASGPs以执行有意义的集群。聚类的目标是ASGPs的一致性,特别是ASGPs的准确性和完整性。完整性被定义为自我与成员的比率。我们在isgp上运行分层聚类,并根据最大平均ASGP一致性选择合适的聚合级别。
产出包括社会群体的新代表。我们通过将它们与每个ASGP中的二元友谊关系、节点属性的同质性以及它们组成的isgp的组属性进行比较来验证这些关系。我们发现ASGPs在结构上比检测到的群落更加多样化。例如,它们包括孤立的节点。因此,我们制作的asgps为网络机制及其动态(如信息扩散或适应)的分析增加了一个额外的因素。
莱斯利·O 'Bray
使用循环神经网络自编码器学习图的向量表示 Marloes Maathuis教授
Karsten Borgwardt教授
巴斯蒂安·里克博士
2019年9月-
文摘:越来越多的数据被存储为图形结构的数据,涉及广泛的领域,如生物信息学、社会网络分析、电信等。传统的分类方法通常不适用于图结构数据,因为许多方法都是在向量数据上操作的,并且不能立即清楚如何最好地将邻接矩阵中的丰富信息压缩到向量中,特别是当邻接矩阵中节点的顺序是随机的时。然而,找到一种比较和分类图表的方法在许多领域都是有用的,并且是一个正在进行的研究领域。本文研究了一种新方法,提出使用循环神经网络自编码器来学习图形的矢量表示,用于比较和分类,我们在生物信息学基准数据集上进行评估。我们编写了我们自己提出的方法的实现,以将我们的结果与原始作者的发现进行比较,并将其与其他相关的最先进的方法进行比较。然后,我们进行了一些实验,以进一步了解该方法,并尝试改进其结果。
我们发现该方法产生了与作者声称的相似的结果,而且该方法与现有的基于序列的学习节点嵌入的方法在很大程度上具有相当的性能。通过我们的实验,我们了解到用于对学习的向量表示进行分类的特定分类器是可互换的,这使我们能够在图的数量上将方法的计算复杂性降低为线性而不是二次的。此外,我们发现可以通过更新用于汇总表示单个图的所有向量的图嵌入函数来提高性能。最后,我们通过直接在神经网络中执行分类来测试模拟方法。虽然结果平平,但它提供了一个有用的见解,即什么样的网络架构更适合这类问题,为该领域未来的工作提供了方向。
洛伦兹埃尔热
基于随机场理论的多重测试调整 马库斯·卡利施博士 2019年9月-
文摘:大脑成像和生物力学等领域的研究人员经常面临大规模的多个假设检验问题,其中各个假设之间的空间依赖性应该被考虑在内。为了解决这类问题,一套基于随机场数学理论的特殊方法已经发展起来并被广泛采用。这些方法依赖于许多参数假设,其基础数学理论是复杂的。在这篇论文中,我们的目标是对这些方法背后的理论和假设提供一个全面和易于理解的概述。此外,我们还进行了模拟实验,在一系列不同的条件下评估这些方法中的一种,即峰值级推理,并将结果与另一种非参数方法实现的结果进行基准测试。在我们所有的模拟实验中,峰值级推理成功地将经验测量的家族错误率控制在所需的水平。然而,我们也观察到,如果一个相对狭窄的条件集不被满足,该方法可以变得非常保守。另一方面,用于多重测试校正的替代非参数技术,在我们所有的模拟实验中,达到了接近期望水平的观察到的家族错误率。
柯恩Vernooij
基于谷歌AI的神经结构搜索和高效迁移学习 Marloes Maathuis教授
张策教授
Andrea Gesmundo博士
8月- 2019
文摘:
Devendra Shintre
利用自激点过程和集成学习对外汇市场反射进行建模 Didier Sornette教授
Sumit Kumar Ram
马库斯·卡利施博士
8月- 2019
文摘:
有效市场假说(巴切利耶,1900)继续主导着金融的讨论,并主张缺乏基于技术分析的套利机会。它的适用性和局限性已在经济学文献中被指出。本文试图解决外汇市场的无效率或自反性问题。
我们假设外汇市场是自反的(Soros, 2015),并将市场的内生成分建模为一个多变量自激条件点过程。我们使用幂律记忆核对内生相关性建模(Bouchaud, Kockelkoren, & Potters, 2006)。在这个市场模型的基础上,我们设计了一组特征,使用过去的日志回报,在固定的时间窗口,利用预定义的幂律记忆内核集合,在随机森林分类器(RF)的帮助下,对未来的回报进行分类。
算法交易员的设计目的是利用我们模型的预测,该模型采用多头和空头头寸,使用跟踪止损来减少超额损失,并在固定的持仓期内进行交易。我们在23-10-07 14:17到15-11-15 17:18训练RF模型(约8年,1分钟为“AUDCAD”对采样外汇数据),在15-11-15 17:18到12-04-16 00:32(5个月)训练交易员。我们在15-11-15 17:18至05-09-16 04:34(10个月)测试RF,在12-04-16 00:32至05-09-16 04:34(5个月)测试交易员。
与随机预测相比,我们用训练过的模型预测了持有期间价格时间序列的漂移,精度增加了10%。我们的交易员在测试集上达到了1.93的夏普比率,并在足够的保证金下优于买入并持有和噪音交易者策略。
Junhyung公园
条件独立性的核度量 Sara van de Geer教授 8月- 2019
文摘:Hilbert-Schmidt独立准则(HSIC)和有限集独立准则(FSIC)是基于两个随机变量之间的交叉协方差算子的(无条件)独立的非参数核检验。在这篇论文中,我们探索了HSIC和FSIC在条件设置(条件变量是连续的)中的直接类似物,我们称之为Hilbert-Schmidt条件独立准则(HSCIC)和有限集条件独立准则(FSCIC)。用HSCIC和FSCIC建立了条件独立的充分必要条件;在FSCIC的情况下,我们没有一个严格的等价,但一个几乎确定的条件,尽管如此,它仍然可以用于实际设置。这些标准的经验估计是通过函数值回归得到的,与之前的结果不同,我们表明回归对无限维的RKHS也是一致的,因为之前的结果严格限制了输出再现核希尔伯特空间(RKHS)是有限维的。最后,我们通过几个模拟研究演示了如何使用这些估计来测试条件独立性。
Yilei张
稳健回归模型:锚回归和套索 Nicolai Meinshausen教授 8月- 2019
文摘:大规模数据的异质性会导致传统预测模型出现问题,传统模型通常假设用于训练和预测的数据来自相同的分布,因为这种假设不太可能再成立了。因此,我们引入了分布鲁棒性的概念,它使我们能够获得在一组分布中执行鲁棒性的估计器。在第一部分中,我们介绍了一种局部回归,一种利用结构方程模型中的外生变量来估计外部因素变化对训练分布的影响的方法。锚点回归因此可以给我们在一组移位干预分布中具有稳健预测性能的估计量,其中干预的强度是可调的。在第二部分中,我们提出了众所周知的l1和l2惩罚最小二乘回归,即套索和岭回归,也具有鲁棒性,我们可以利用正则化子和鲁棒性之间的联系来构造凸惩罚,这使我们能够在更一般的情况下获得鲁棒估计。最后,我们证明了锚回归、套索回归和山脊回归这三种鲁棒回归模型可以被写成统一的极大极小形式,这说明了这些鲁棒回归模型之间的联系和区别。
弗朗西斯科·Masiero
基于在线匿名报价的非寿险定价流程优化分析 卢卡斯·迈耶博士 8月- 2019
文摘:今天,由于该行业正在经历的数字化,保险公司正在出现新的数据源。利用这些信息是优化保险产品定价过程的关键。在本文中,我们分析了安盛在线车险保费计算工具上产生的在线匿名报价,目的是对报价请求概率及其价格弹性进行建模。在论文的第一部分,我们应用不同的统计学习技术,即L1正则化逻辑回归,广义加性模型和树集成方法,如XGBoost,首先介绍了它们的理论基础。我们得出结论,L1正则化逻辑回归提供了一种可解释的,但强大的技术来建模我们的数据。基于L1正则逻辑回归变量选择的广义加性模型的新方法也是一种具有竞争力的替代方法。XGBoost提供了类似的预测性能,但支付了更困难的模型解释的额外成本。在论文的第二部分,我们研究了报价概率的价格弹性,得出线上报价的价格弹性比线下报价大。
燕Yici
利用单指标模型分析非线性观测数据 Sara van de Geer教授 8月- 2019
文摘:单指标建模是一种统计方法,可以看作是参数方法和纯非参数方法之间的折衷,也可以看作是广义线性模型的自然扩展。它在计量经济学和生物计量学研究中被广泛采用,因为它在建模现实世界现象方面提供了丰富的灵活性。从理论角度看,单指标模型(SIM)具有估计效率等优点。在本文中,我们研究了经典和高维设置下SIM的数学特性。我们首先提供了一个关于估计模型的选择性调查。然后对结构化SIM下非线性和线性测量的等价性进行了全面评述。最后,提出了单指标框架下稀疏信号恢复的新思路。
陆洋的汉
高维数据的鲁棒确定独立筛选 Sara van de Geer教授 8月- 2019
文摘:
确定独立筛选(SIS)是一种变量选择方法,它使用边际相关性来预选回归模型的重要预测因子,其中预测因子的数量p大大大于观测值的数量n。该过程将预测因子的高维降至小于n的大小。尽管SIS在某些条件下是有效的,它的性能在很大程度上随着预测因子和潜在异常值之间的相关性而恶化。为了提高SIS的性能,引入了基于鲁棒秩相关筛选(rcs)和基于鲁棒因子轮廓确定独立筛选(RFPSIS)两种方法。仿真研究比较了两种方法的性能。
RRCS采用Kendall τ秩相关代替Pearson相关进行边际变量筛选过程。Kendall τ秩相关与Pearson相关关系密切,且在单调变换下不变性,可推广到广义非线性回归。RFPSIS基于FPSIS的思想,原始数据被投影到正交补空间。理想情况下,潜在因素可以捕捉到原始空间中的相关结构。RFPSIS采用最小二乘法对FPSIS进行鲁棒修正,估计潜在因素和剖面变量;同时,识别潜在的异常值,降低异常值的影响。仿真结果表明,这两种方法对重尾异常值具有较强的鲁棒性。当数据集被大量异常值污染时,RFPSIS将优于RRCS。
奇亚拉Gilardi
欺诈检测统计方法的比较 卢卡斯·迈耶博士 8月- 2019
文摘:
欺诈是一个日益严重的问题,它影响着全球许多商业领域,每年造成数十亿美元的损失。由于欺诈者的策略总是在不断变化,因此开发新的欺诈检测技术对于预防和识别欺诈都是必不可少的。诸如异常值检测和分类之类的统计方法在文献中已广泛用于信用卡、电子商务和电信欺诈检测等任务。本研究研究了有监督和无监督机器学习算法,并将其应用于模拟银行客户数据。当使用监督方法时,特别强调抽样和加权技术,这可以减轻数据的不平衡。研究发现,分类方法优于孤立森林、LOF和自组织映射等离群点检测算法。随机森林算法被认为是最佳的分类器。此外,使用欠采样或smte采样技术可以进一步提高其性能。
弗拉基米尔•Fomin
随机旋转升级对神经网络和梯度提升树的影响 马库斯·卡利施博士 8月- 2019
文摘:梯度增强树和神经网络是目前最成功和最常用的两种统计方法。因此,他们一直占据Kaggle挑战的排行榜前列,这是一个机器学习爱好者和专业人士解决行业和科学界提出的问题的平台。本文的目的是提供这些方法背后的理论概述,并探讨它们在实际应用中的优势和差异。

为了检验这些差异,进行了一项模拟研究,得出了一个有趣的想法。这个想法的核心是随机旋转,它允许将低维数据升级到高维空间,同时保留其一些属性。

乍一看,这似乎违反直觉,因为升级数据通常会导致更大的搜索空间和额外的噪音,但令人惊讶的是,如果满足某些条件,结果可能恰恰相反。我们将在本书后面的章节中更深入地探讨这个观点。
Karavouzis Eleni Artemis
模型选择 马库斯·卡利施博士 8月- 2019
文摘:有多种选择模型的方法。一个重要的问题是如何根据不同的情况选择最好的方案。在这篇论文中,我们提出了一些最常见的信息标准,它们的推导和各自的假设。然后我们介绍交叉验证工具,这是一个通用的过程,不对底层模型做任何假设,可以在许多不同的设置中使用。最后,我们尝试将交叉验证与一些信息准则进行比较。
大卫。Dandrea
将背景知识纳入GES算法 Marloes H. Maathuis教授 8月- 2019
文摘:结构学习方法通常分为基于约束的方法、基于分数的方法和混合方法。将各种类型的背景知识合并到混合方法或基于约束的方法(如PC算法)中通常是一个自然的过程。对于基于分数的方法,这就不那么简单了。我们研究了如何将各种类型的背景知识合并到最著名的基于分数的贪婪搜索算法之一——贪婪等价搜索(GES)算法——及其变体中。我们的重点是在保证GES渐近一致性的同时提高其估计质量和计算效率。
马丁Buttenschoen
条件工具变量渐近效率的图形准则 Marloes H. Maathuis教授
伦纳德亨克尔
2019年7月
文摘:条件工具变量通常用于因果效应估计。对于具有高斯误差项的线性因果模型,已知可以组合工具来减少相应估计量的渐近方差。这种方法的一个限制是,随着仪器的增加,结果估计器的偏差会增加。所以条件工具变量的组合并不总是可取的在这种情况下,人们可能会求助于未组合的条件工具变量。在这篇论文中,我们提出了一个比较不同条件集的条件工具变量的图形准则。给定线性高斯因果模型的图形结构,我们的准则根据相应条件工具变量估计量的渐近方差在可能的条件集集上诱导了一个部分排序。我们提出模拟来支持我们的结果。
卡拉Schärer - Gonzalez Lutzenkirchen
随机对照试验中的随机化策略 马库斯·卡利施博士 2019年6月,
文摘:关于实验的设计,以及只有通过一个好的实验才能建立因果关系,已经写了很多。我们的目标是把抽样和因果推断理论放在一个屋檐下,围绕不同的随机过程,可以在这两个过程中使用。我们探索了从总体中获得样本的不同方法,它们在估计总体均值时的效率以及它们的优缺点取决于总体的结构。一旦获得样本,我们就会研究如何将其元素分配给不同的实验组,以便获得更准确和可靠的结果。有了以上所有的例子和模拟的帮助,我们的目标是使理论更容易理解。
阿明Fingerle
私人市场表现的预测模型 Marloes H. Maathuis教授
Fabien piotte博士
Nerina Fidanza Romani博士
2019年6月,
文摘:在这篇论文中,我们开发了一个模型来预测一家公司的EBITDA(息税折旧及摊销前利润)的运动,重点关注私有市场环境。我们考虑来自公司收入状况和资产负债表的数据以及微观和宏观经济变量对公司EBITDA的影响。采用套索法、脊法、弹性网法和随机森林法对这一问题进行了探讨。最初使用回归的尝试没有成功。自变量似乎不能为回归提供太多信息。然而,采用基于分类的方法,我们取得了积极的效果。通过该模型,我们预测EBITDA未来变化的分类为两类:EBITDA %变化> - 5%和≤- 5%。最后一个模型基于随机森林,适用于任何工业部门。它仅依赖滞后的EBITDA变量,并漏分了13.7%的EBITDA %变化≤- 5%的观察值和53%的其他类别。
Qikun香
利用因果推断估计社交媒体网络的影响 Marloes Maathuis教授
艾伯特·布莱勒博士
Meta Lina Spohn女士
2019年6月,
文摘:
近年来,Twitter.com等在线社交媒体平台已经成为一个重要的信息来源。这引起了人们对错误信息的传播和国家支持的影响行动的关注,这些行动有可能破坏选举和公民投票的公正性。因此,了解在线社交网络中的信息传播和同伴影响过程是至关重要的。在现有关于连续时间信息传播的文献中,大多数研究集中在预测方面,很少考虑因果方面的研究,特别是在回顾和反事实意义上。虽然因果推断文献中的许多研究提出了强大的技术来识别时间敏感数据中的因果关系,但大多数研究都集中在离散时间序列上,而很少关注连续时间模型。
在这篇硕士论文中,我提出了Gomez-Rodriguez, Balduzzi和Scho lkopf(2011)的连续时间网络扩散模型的因果推断框架。这个框架允许人们提出反事实的问题,比如“如果事情不是这样,会发生什么?”这使得人们能够在因果层次结构的最显著的层次上洞察模型。基于因果推理框架,本文提出了一种新的影响度量方法,适用于在线社交网络中个体影响力的回顾量化。
在理论发展的基础上,研究了大量真实Twitter数据集的特征。在研究数据集的基础上,利用模拟数据集和真实数据集对所提出的框架和影响度量进行了实证验证。仿真实验考虑了许多现实挑战,包括样本量小且分布不均匀,用户的子选择,以及真实模型偏离假设模型的情况。实验表明了所提出的方法的实用性,也揭示了一些可以在未来工作中解决的局限性。
卡米拉Gerboth
层次推理方法及其在全基因组关联研究中的应用比较 彼得博士教授Bühlmann
克劳德Renaux
2019年5月-
文摘:我们比较了两种方法,这两种方法在高维设置下,在控制家族错误率的同时,对预测变量的层次组进行测试,以确定与响应变量的显著相关性。这些方法的一个有趣的应用可以在全基因组关联研究中找到。这些研究的目的是检测与疾病显著相关的单个或组遗传变量。两种先验推理方法都是数据驱动的,因为数据中的信号和预测变量之间的相关性决定了显著组的大小。一种分层推理方法是基于分层聚类,其中预测变量是有序的,高度相关的变量被分配到同一组,另一种是基于区域的。在仿真研究中,在综合和半综合数据上测试了层次推理方法的性能。此外,为了研究其性能,还生成了混杂和解混杂的合成数据。一个谱变换过程被用来获得反成立的数据。结果表明,非区域层次推理方法优于基于区域的层次推理方法。
弗朗西斯科·Bigiolli
通过脑电图记录增强情绪分析 Nicolai Meinshausen教授
张策教授
诺拉Hollenstein
4月- 2019
文摘:本文的研究范围是研究脑电图(EEG)和眼动追踪(ET)数据可以为自然语言处理任务带来的附加价值,特别是情感分析。
为了进行分析,这项工作利用了苏黎世认知语言语料库,这是一个开源的EEG和ET记录的受试者阅读句子的数据集。
从神经科学的角度,本文探讨了与脑电图中情绪检测相关的问题,使用不同的深度学习技术解决多种表示,最后从认知数据推断阅读句子的情绪。
从自然语言处理的角度来看,这项工作调查了信息在人类处理方式中的作用,可以增强经典的情感分类器。为此,EEG和ET作为机器学习系统的增强器,通过利用这些数据来改善相对于基线模型的情绪检测,从而提供了其潜力的证据。
此外,该研究提供了一种基于与特定单词相关的人类认知过程的词嵌入创建的替代方法,而不是基于词-上下文关系。
最后,对这种嵌入方法的有效性提出了支持。这是通过在记录认知数据的框架之外测试他们的分类性能来完成的,显示出在斯坦福情感树库语料库上使用所述认知嵌入的多种变体的情绪检测方面的持续改进。
莫里斯·韦伯
有损图像压缩分类 张策教授
Nicolai Meinshausen教授
塞德里克Renggli
3月- 2019
文摘:我们在后续分类的背景下研究了可变比特率的学习图像压缩,其中分类器被参数化为卷积神经网络。我们的目标是训练一个基于循环神经网络的压缩算法,这样当在压缩数据集上评估时,压缩系统未知的预训练分类器的准确性也能保持在低比特率下。我们研究了用作压缩网络目标的损失函数,并强调了常用的像素级距离的缺陷。作为一种替代方法,我们建议使用基于卷积神经网络特征的感知损失函数来进行图像分类。
我们在三个数据集上实验验证了我们的方法,并表明通过使用感知损失函数,与像素损失函数和广泛使用的JPEG和WebP编解码器相比,我们可以大幅降低分类精度的损失。我们的结果进一步表明,具有感知损失函数的学习图像压缩的优势在每像素0.5比特以下尤其明显。
科琳Emmenegger
线性和非线性锚回归 Nicolai Meinshausen教授 3月- 2019
文摘:经典预测依赖于数据生成机制在训练和预测之间不会改变的假设。如果这个假设不成立,我们将研究并提出预测方法。我们假设训练改变了分布
检验是由于外源随机变量分布的变化。这个随机变量叫做锚。我们研究线性和非线性数据生成机制。在线性数据生成机制的情况下,锚回归被召回
并举例说明。在非线性数据生成机制的情况下,我们通过优化损失函数来拟合自然三次样条。这个损失函数由几个项组成:一项测量预测器与观测数据的接近度,一项
测量结果残差和锚的独立性,一个可选项规范预测器。不同的正则化条件鼓励残差和锚的独立性被考虑。进一步研究了非线性情况下的一种基于增强算法的方法。

Isaia Albisetti
球形对称性测试:条件期望方法2018年秋季 Fadoua Balabdaoui博士 3月- 2019
文摘:
当且仅当一个分布在正交变换下是不变的,它被称为球对称分布。由于许多线性模型假设误差具有这种性质,因此检验球面对称的零假设结果是必要的。从包含条件期望的等效定义出发,构造了Kolmogorov-Smirnov和Cram & er-von Mises类型的检验。实证分析和与其他测试的对比表现出不同的表现。
凯这位
计算混合嵌套效应模型的维数以改进模型选择 Niko Beerenwinkel教授
马库斯·卡利施博士
3月- 2019
文摘:在Pirkl & Beerenwinkel[5]的混合嵌套效应模型(M&NEM)框架中,采用了贝叶斯信息准则(BIC)的改进版本进行模型选择。计算这一信息准则的关键是模型参数的数量或换句话说,模型的维数。M&NEM的维度不是直接确定的,可以采用不同的方法。在本文中,Yin等人已经成功地应用于确定突变树(MMT)混合物的维数的方法,[8]被用于确定m&nem的维数。我们称这种方法为雅可比维估计。基因敲除是微扰实验所固有的,用于收集数据来推断m&nem。本论文的主要挑战是在维数估计中加入基因敲除,因为它们不是m&nem图形表示的一部分。我们证明了用雅可比维数估计方法训练的m&nem与用默认方法训练的m&nem具有相似的精度。
Sanzio蒙蒂
数据预处理对SESI-MS呼气分析研究的影响 Marloes Maathuis教授 3月- 2019
文摘:二次电喷雾电离质谱(SESI-MS)是一项很有前途的技术,最近被研究人员用于将呼出气体中的化合物与某些疾病联系起来。SESI-MS具有非侵入性和提供实时结果的优势,这意味着它可能成为研究甚至疾病诊断收集数据的主要方式。这篇论文考虑了一个SESI-MS呼吸分析研究,用于诊断睡眠障碍,研究人员未能重现。到目前为止,特别是对于非肺部疾病,这种数据分析仍在开发中。因此,本文所处理的假设是数据的预处理可能会对后续发现产生重大影响。在研究过程中进行的分析,包括相关性和分类性能,在应用各种预处理后进行重复。结果表明,不同的预处理会得到不同的相关性和分类性能值。影响这些变化的主要因素是归一化方法和先验特征选择的严重程度。这些发现可以使研究者认识到数据预处理的重要性。此外,本文所阐述的分类程序可用于重复验证研究,并获得更具可比性的结果。
塞德里克Bleuler
从PDF文档中自动提取数据 Marloes H. Maathuis教授
MSc ETH Aaron Richiger
3月- 2019
文摘:今天,在许多领域,纸质文档已经被PDF文档所取代,因为它提供了一种廉价的方式来归档大量的文档。问题是很难有效地利用这些档案提供的数据。通常,必须手动扫描这些文件。提取数据的另一种更高级的方法是通过基于规则的方法,其中规则是专门为一种类型的文档开发的。在本文中,我们探索了一种机器学习算法的可能性,该算法基于标记文档学习规则,并能够从新文档中提取数据。
第一部分是统计理论,包括决策树、随机森林、逻辑回归、交叉验证等方法来建立有效的分类模型。
第一个问题是将一份公司文件中的单词分为两类:对该文件至关重要的单词和不包含重要信息的单词。第二个问题是将基本词汇分类为子类,以便以结构化的方式存储基本信息。第三个问题是将某些单词分组在一起,以便捕获一组单词的语义。最后一个问题是去掉分类词中的前缀和后缀,只保留词中包含的信息。
尽管在所有问题中都使用了许多不同的模型,但在所有情况下,与实验中使用的其他模型相比,基于随机森林的模型在使用所选特征对单词进行分类方面被证明是最有效的。
Seongwon黄
基于抽样的期望最大化与基于知识的先验结合功能注释检测因果基因 丹尼尔·泽比诺博士
彼得博士Bühlman
3月- 2019
文摘:全基因组关联研究(GWAS)已经成功地识别了数千个与复杂性状和疾病相关的区域。然而,在GWAS研究中识别因果基因仍然具有挑战性,因为许多具有统计学意义的变异与因果变异处于连锁不平衡状态,一些位点包含多个因果变异。通过计算GWAS和表达数量性状位点(eQTL)之间的共定位后视,已经有一些尝试对相关组织和靶基因进行优先级排序,但尚未充分考虑生物学知识来模拟这些情况下的因果状态。另一方面,功能性精细映射研究选择相关注释来解释复杂性状的关联研究,已被统计建模以设置有用的先验。我们设计了一种基于采样的期望最大化(EM)算法,将函数精细映射与随机随机搜索方法的共定位相结合。在GWAS和eQTL研究中,设置基于功能信息的先验有助于因果贝叶斯推理。我们使用最大似然估计作为EM方法的初始值,这有助于避免接近局部极值。我们分析了体重指数GWAS的汇总数据,发现ML+EM估计在GWAS和eQTL研究的精细作图以及因果基因作图中产生了最有希望的证据。最后,我们引入了一个新的框架,以有效地计算后验概率和隐含变量的参数与抽样技术相结合。

克里斯托弗Salahub
强制性质疑的图解调查 Marloes Maathuis教授 3月- 2019
文摘:本文描述了强制质疑的法律实践,概述了其过去和现在的种族争议,以及通常为其提供的现代辩护。使用新颖的可视化工具对这些论点进行统计分析,包括移动图和位置箱图,开发这些工具是为了在三个数据集(Wright, Chavis和Parks (2018), Grosso和O 'Brien(2012),以及Baldus, Woodworth, Zuckerman和Weiner(2001))中探索种族对执行强制性挑战的影响。由这些可视化所激励的多名义回归模型是适合的,并用于生成精确的参数估计,这些参数估计表明种族在所有数据集的全体成员的强制性挑战决策中的主导地位。在venire成员模型的结果的背景下,产生并讨论了Wright等人(2018)的数据的试验级摘要。
路易莎Barbanti
转换模型:R中的应用介绍 卢卡斯·迈耶博士 2019年2月,
文摘:
本文通过介绍理解这些模型所需的理论背景,并详细解释如何实现这些模型,介绍了转换模型。本文提供了许多关于真实数据和模拟数据的示例,以引导读者了解这个灵活的世界,从建立模型到使用mlt包根据最有可能的转换进行预测,再到通过trtf包获得转换树和森林。最后,通过遵循与Hothorn(2018)中提出的模型选择类似的自顶向下方法,探索了转换模型作为数据分析工具的潜力。
杰西教务长
基于神经网络矩阵分解的二维超声心动图无监督二尖瓣分割 卢卡Corinzia
Nicolai Meinshausen教授
Joachim Buhmann教授
2019年2月,
文摘:二尖瓣分割是建立机器学习管道的关键第一步,可以帮助医生诊断二尖瓣疾病、手术计划和术中操作。在本文中,我们提出了一种完全自动化和无监督的二尖瓣分割算法。该方法由对超声心动图视频进行低维神经网络矩阵分解,将二尖瓣和噪声从心肌中分离出来,并通过窗口检测算法定位包含二尖瓣的区域进行分割。该方法是通过收集各种二尖瓣疾病患者的超声心动图视频进行评估的,它在所有考虑的指标上都优于最先进的方法。
易刘
超分辨率,广义误差,Wasserstein距离 Prof.Dr。莎拉·范德吉尔 2019年2月,
文摘:本文以高维统计量为例,研究了超分辨率问题。
考虑了网格外信号和网格上信号的两种情况。对于栅格上的信号,套索可以用来重新覆盖信号。对于脱离网格的信号,采用半定规划恢复信号。在这两种情况下,预测误差都是有限的。我们研究了相容条件成立时的收敛速度。
超分辨率问题实际上就是利用低频数据在整个频域上估计一个回归函数。这个问题促使我们考虑比较来自两个不同分布的给定数据的估计器的风险。
本文提出了一种比较两种不同数据分布下估计量风险的新方法。
最后一章是关于Wasserstein距离和最优传输的计算。
尼古拉Botti
有限数据最优保险合同设计 Marloes H. Maathuis教授
Patrick Cheridito教授
2019年2月,
文摘:保险单是两个代理人(即保险提供者和保险购买者)之间最直观的风险管理形式之一。尽管如此,理解到底是什么驱使这两个代理人达成这样的协议,以及这种契约的最佳形式并不是一件微不足道的事情,并且已经代表了50多年来的研究主题。这项工作分析了该领域的主要支柱之一,Raviv(1979)的结果。首先将注意力放在对他的主要贡献的理论回顾上,然后特别关注帕累托最优契约的形状:因此讨论了使用各种类型效用函数的一些例子,包括关于此类契约的分段线性的见解。随后,本文提出了一些可能扩展Raviv(1979)理论的想法,特别是当市场参与者不确定保险买家面临的损失分配时会发生什么。本文提出了两种不同的情况:第一种情况下,保险购买者和保险提供者对这种损失的分配有不同的看法;在第二种情况下,保险提供商在两种可能的分配中尚未确定。最后,该研究强调了试图处理这些情况的重要性。

2018

学生 标题 顾问(s) 日期
Weigutian欧
广义线性模型的谱去地基 彼得教授Bühlmann
Domagoj Cevid
12月- 2018
文摘:我们研究因果广义线性模型中的混杂。我们证明了关于观测变量(X,Y)分布的混杂广义线性模型(GLM)等价于摄动广义线性正态模型(GLNM)。为了充分理解这种行为,我们研究了GLNMs的性质及其拟合过程。在此基础上,我们提出了一种获得正确参数估计的方法
与混淆的存在。最后,我们将我们的方法与其他方法进行了比较。
Natallie Baikevich
高维分类与相关数据及其在宏基因组学中的应用2018春季统计研讨会 卢卡斯·迈耶博士
Sunagawa Shinichi博士教授
Miguelangel Cuenca Vera博士
11月- 2018
文摘:今天,高维分类是一个越来越重要的问题,特别是在宏基因组学等领域。许多高度相关的预测因子的维度和存在使得建立真正准确的模型及其解释特别具有挑战性。我们回顾了一些流行的方法,并评估它们在多个模拟研究中的表现,以及在一个案例研究中使用源自DNA序列的特征进行疾病分类。可解释性的重要性促使变量排名的选择成为本研究的主要焦点。我们强调了这些方法的重要性质,并开发了一种改进的层次推理方法。
洛伦茨Walthert
房地产价格预测的深度学习 马库斯·卡利施博士
Fabio Sigrist博士
11月- 2018
文摘:本文的目标是利用深度学习对房地产价格进行建模。使用2011年至2017年瑞士自有公寓的交易数据,我们进行了广泛的网络架构搜索,评估了大量不同的层组成和超参数。我们估计模型与金字塔和at层组成,以及网络与嵌入宏定位。此外,我们开发了一个模型,将交互作用和非线性限制为根据数据性质定制的变量子集,并通过联合两种现有方法提出了一种新的学习率调度方法。一个经典的享乐回归模型和山脊回归人工特征工程和梯度增强作为基准。我们得出的结论是,具有人工特征工程的线性模型的性能明显不如灵活的算法深度学习和梯度增强回归树。特别是当深度学习和梯度增强相结合时,能够提供高质量的预测,超越传统方法。
卢卡斯霍夫曼
评估病例管理对医疗支出的因果影响 Marloes H. Maathuis教授
伦纳德亨克尔
2018年10月,
文摘:病例管理是一种越来越受欢迎的管理护理技术,通过这种技术,处于复杂生活状况的人以资源和解决方案为导向的方式得到支持。它是在一个标准化和合作的过程中实施的,旨在提高质量
护理和降低医疗成本。特别是在医疗费用不断上涨的背景下,降低成本的效果是可取的。然而,案例管理是
有时因为没有达到这种成本效果而受到批评。在这篇论文中,我们分析了来自Helsana Versicherungen AG的数据来研究这个问题。首先,我们描述了潜在的选择过程。有背景知识
得到的数据,我们分析和讨论的假设是充分的成本效果估计。其次,我们估计了成本效应,最后,我们提出了修改建议
选择过程,以便为合理的因果推断奠定基础。此外,我们还对医疗成本行为进行了模拟研究,并对混杂条件下的因果效应估计进行了敏感性分析。

关键词:因果关系,观察性研究,意向治疗分析,实验设计,线性回归方法,协变量调整,匹配
艾琳Schillig
网络风险和数据泄露 韦奕礼博士
马图伊斯教授
S. Frei博士
2018年10月,
文摘:在这篇硕士论文中,我们分析了构成当今网络世界主要网络风险之一的数据泄露。受之前工作的激励,特别是Eling和Loperfido [14,2017], Wheatley, Maillart和Sornette [37,2016], Hofmann, Wheatley和Sornette[18,2018]的工作,我们从保险的角度用新的扩展数据集分析了至少70k条记录丢失的数据泄露。我们使用多维尺度来识别基于经济部门的严重风险等级。为了对频率进行建模,我们使用计数glm,由此我们发现了显著不同的场景结果,以预测未来数据泄露频率的发展,至少丢失70k条记录。数据泄露的严重程度根据事件的各种特征进行分析,例如受影响实体的规模和经济部门,以及泄露介质的类型,导致泄露的失败模式,以及是否有第三方参与了数据泄露事件。我们估计严重性分布,对于完整数据集的各种阈值,最好用截断对数正态分布或上截断帕累托分布来近似。在进一步的步骤中,我们研究报告延迟。因此,参数和非参数方法都用于评估报告延迟随时间的发展及其与其他变量的关系。此外,我们分析了由于美国数据泄露通知法的引入,数据泄露事件的报告是否有任何变化。
塞缪尔·凯斯勒
时间序列预测的综合训练 Andreas Krause教授
Mojmir Mutny
马丁Štefanik
2018年9月-
文摘:
据经验观察,训练模型的方式和训练模型用于预测的方式之间的差异会导致很大的预测误差。我们研究了一种与预测过程相吻合的时间序列模型训练形式,并将其与标准训练模式进行比较。实验证明,与条件极大似然估计器相比,我们的训练方法能够对线性自回归(AR(p))模型产生更好的多步预测,对于递归神经网络(rnn)也是如此。实验表明,对于AR(p)模型,我们的训练方法会影响学习模型的Lipschitz常数,以产生更稳定的预测。在rnn的情况下,经验表明,与通过条件最大似然训练的rnn相比,我们的训练方法在执行预测时对预测错误更稳健。
费德里科•Rogai
R中的线性混合效应模型:评估置信区间函数的质量 马库斯·卡利施博士
马丁博士Mächler
2018年9月-
文摘:本文是Xia(2014)和Zingg(2014)之前工作的延伸和改进。正如他们所做的那样,我们开始评估计算线性混合效应模型固定效应参数的置信区间的不同方法的质量。我们研究两种模型,平衡和不平衡的相对于他们的随机结构。
为了更好地理解这个问题,我们回顾了线性混合效应模型的参数估计理论。我们还讨论了不同方法的置信区间计算的数学,以进一步深入了解不同的必要假设和结果技术的性质。鉴于从理论角度解决手头的问题有困难,我们只能凭经验来解决。
在统计软件R中对这一范围进行了模拟研究。与典型的仿真设计相比,我们不会任意生成新的数据,而是依赖于现有的数据集,其中有几个不同的模型。拟合对象用于生成新的响应变量。将相同的模型重新拟合到新数据中,使我们能够评估我们为感兴趣的参数β获得的置信区间,因为我们现在知道它的真实值。
为了评价我们的结果,我们构建了几个度量置信区间质量的方法。研究描述性统计并绘制我们的结果,根据这些测量,表现最好的方法是Kenward-R。紧随其后的是Satterth。以及——取决于我们所查看的统计数据——boot-Para-uF。相反,剖面、引导- para - ut和引导- semi - ut的性能令人失望。最后,我们采用了更严格的方法来分析我们的结果。我们专注于一个“质量测量”,并使用预测器方法拟合了一个线性混合效应模型。我们在这里得到的结果支持并加强了我们之前的发现。
苏哈塔Sahai
深度学习用于音乐源分离 Nicolai Meinshausen教授
罗曼·韦伯博士
布莱恩·麦克威廉姆斯博士
2018年9月-
文摘:在音乐制作和为音乐信息学中进一步的下游应用创建符号音乐数据的应用中,将音乐音轨分离为其组成乐器是一个有趣的问题。解决这一问题的传统方法通常是非数据驱动的,使用音乐信号的已知统计属性来执行分解。
近年来,数据驱动的方法,特别是深度神经网络,在实现这一目标方面比传统方法有了根本性的改进。我们研究了目前最先进的基于深度卷积网络的算法之一,并在此基础上实现了一个音乐源分离系统。我们表明,我们的系统在标准化分离任务上与其他系统具有竞争力。
然后,我们将探索对该算法的一些增强。特别地,我们研究了这些系统中常用的L2或L1损失的替代损失函数的使用,并证明我们能够通过使用“感知”VGG损失来提高算法的性能。我们还探讨了通过修改系统输入/输出来提高网络的容量利用率。最后,我们还创建了一个新的数据集,可以用于木管五重奏作品的音乐来源分离。
爱丽丝Feldmann
大选区的评估投票-分析与扩展 彼得博士教授Bühlmann
Hans Gersbach教授博士
2018年9月-
文摘:本文介绍了评估投票,一种创新的两轮投票概念,在昂贵的设置和大量的选民中进行评估。与标准投票方案相比,评估投票具有成本效益
莉莲夸夸其谈的人
瑞士议会记录的主题建模 马库斯·卡利施博士
路易斯·萨拉曼卡医生
费尔南多·佩雷斯-克鲁兹博士
2018年9月-
文摘:
在许多领域中,主题建模是一种用于分析大量文本文档的技术。最近,它被应用于政治学,以确定政治家和政治团体的利益和关注点,最突出的是美国参议院和欧洲议会。本文以潜在狄利克雷分配(LDA)为重点,对主题建模进行了全面介绍。LDA用于收集1891年至1995年的瑞士议会记录。对第39和44个立法时期的定性分析揭示了这些时期重要的社会经济和政治事件。动态主题建模的第一次尝试对所发现的主题的时间演变提供了令人惊讶的深刻印象。此外,对第44个立法时期进行了定量分析,以确定最佳的主题数量。由于这项工作是对此类数据集的首次分析,因此有多种扩展可能性,如应用动态主题建模来检索主题的演变。将政治家与话题联系起来,并将这些信息与他们的背景联系起来,可以用来预测他们在投票中的决定。
拉希德Khorrami
推特网络中关键转变的预警信号 Marloes Maathuis教授
艾伯特·布莱勒博士
Didier Sornette教授
2018年9月-
文摘:在不同的研究领域,人们曾多次尝试预测观测到的时间序列达到峰值的确切时间。在这篇论文中,我们的目标是找到方法来预测推特时间序列中的峰值,这与几乎同时发生的现实世界事件相对应。为此,我们假设对于一个感兴趣的话题,推特网络以某种方式在相应的推特计数时间序列达到峰值时或不久之前经历了一个分叉。一般来说,当动力系统接近一个临界点时,由它产生的时间序列被期望表现出一定的预警信号。在我们的分析中,我们将自己限制在时间序列的自相关性、方差和偏度的演变上,并旨在确定这三个量(所谓的ews -时间序列)中的特征模式,这将表明推文计数的峰值即将到来。在此过程中,我们还进一步探讨了峰值预测问题的方法,并将相应的主题置于整体背景中。最后,我们得出结论,当我们将ews方法应用于时间序列的去趋势版本或仅应用于季节趋势乘法分解的剩余部分时,我们的ews方法具有总体优越的结果。然而,由于数据质量方面的一些问题,以及我们使用的一些方法只适用于回顾性视图,我们的结果应该谨慎地进行跟踪。
迈克尔·谢勒
在观察设计中预测未来设备销售和估计因果结构的实用方法 卢卡斯·迈耶博士
起因Milenkovic
8月- 2018
文摘:对移动电话销售的良好预测对电信运营商来说是非常有价值的。更好的是知道如何干预,以便未来的销售增加。我们首先用不同的回归模型在真实世界的数据集上预测未来的销售,数据集由瑞士最大的电信公司之一提供。我们分析了数据的可能性和局限性,并为导出的模型提出了各种用例。此外,我们还分析了用于预测模型的变量之间的因果依赖性。找到因果关系的最简单方法是实验干预。然而,在这种实际情况下,这是不可能的。相反,我们使用两种不同的算法来估计图形模型。图形模型可以回答观察设计中是否存在因果关系的问题。事实上,这篇论文可以展示一些有趣的变量之间的依赖关系和因果关系,可以用来开发新的定价模型。 We point out the limi-tations and possible improvements by comparing the PC and RFCI algorithms in specific applications.
锦州李
Nodewise Knockoffs: FDR控制高斯图形模型 Marloes Maathuis教授 8月- 2018
文摘:本文主要研究统计学中的误差控制问题。我们从学习在多重测试背景下控制全科错误率(FWER)、k -全科错误率(K-FWER)或错误发现率(FDR)的一些经典方法开始。然后,我们将注意力转向更具体背景下的FDR控制问题:变量选择和结构学习。尽管这两个任务都可以转换为多个测试问题,但有一些方法可以在不涉及多个测试的情况下实现相同的目标。对于变量选择,我们研究了一个新提出的非常有趣的想法,叫做山寨。主要关注的是Barber, Candès等人(2015)提出的固定x山寨框架,以及Candes, Fan, Janson和Lv(2016)提出的model-X山寨框架。在研究了所有这些之后,我们尝试利用节点和固定x的山寨思想,并在学习高斯图形模型的结构时找到一种保证有限样本FDR控制的方法。我们提出了许多实验程序,并进行了模拟,以测试他们控制FDR的能力。他们中的一些人在我们的模拟中成功地控制了FDR。但我们没有推导出这些方法的理论FDR控制保证。 One exception is the so-called Nodewise Knockoff method. The FDR control property of this method is proved, and we show by simulation that it outperforms the Benjamini & Yekutieli procedure proposed by Benjamini and Yekutieli (2001) in some settings. The Benjamini & Yekutieli procedure is the only procedure we aware that guarantees the finite sample FDR control without any assumption on the underlying graph. We close this thesis with a summary and some possible future research directions.
Jannik阻碍
时间序列中的因果推理及其在德国电力市场中的应用 Marloes H. Maathuis教授
Jan Abrell博士
8月- 2018
文摘:本文讨论了因果关系的一般概念和在时间序列的背景下,并提出了两种方法来进行因果推断的时间序列。一种是拟合向量自回归模型,并利用格兰杰因果关系的概念得出结论。另一个是PC算法的一个版本,它进行条件独立性测试,并从中推断潜在因果机制的属性。这两种方法都应用于来自德国电力市场的数据集,该数据集显示了几个强烈的季节性成分。分析以小时、每天、每周和每月的时间分辨率对数据集的不同版本进行,其中季节性成分已经或尚未被删除。考虑到之前的经济学知识,这些结果中有些可以被认为是无效的,而另一些则比较合理。这些结果表明,可再生能源发电受到其他因素的因果影响,而由于其边际成本低,人们认为情况并非如此。
s.h. Magnússon
选择金融泡沫最优起点的剔除方法 Nicolai Meinshausen教授
Didier Sornette教授
8月- 2018
文摘:识别金融泡沫并预测其破裂不仅具有很高的理论意义,而且具有实际意义。对数周期幂律奇点模型(lpls)试图模拟金融市场不可持续的增长,即超指数增长,并预测这种泡沫不可避免的破裂。本文旨在改进lpls模型的统计估计,允许参数模型的残差在创新中具有自回归部分和异方差。此外,研究了选择气泡最佳起始点的新方法,并与现有方法进行了比较。最后,lpls模型中的参数需要满足特定的约束条件来描述泡沫。我们将这些限制部分地扩展到概率边界。
对选取气泡最佳起始点的方法进行了测试,并与综合数据和历史数据的结果进行了比较。对残差结构的改进对于估计参数及其置信区间是必要的。所建议的选择气泡的最佳起始点的方法在概念上比现有方法更有吸引力,但需要改进。我们建议做进一步的实验,比较和找出每个选择标准的优点和缺点。
Emilien朱尔斯
广义线性模型:参数估计、相关响应和省略的协变量 马库斯·卡利施博士 8月- 2018
文摘:自从McCullagh和Nelder(1989)提出广义线性模型以来,它已经成为处理离散数据的规范方法。在独立观测的情况下,迭代重加权最小二乘算法通常用于最大似然估计量的计算。为了提高计算效率,我们考虑了一种替代的、基于梯度的拟合过程——在线梯度下降——我们认为它更适合大规模的参数估计。当收集的数据来自一个小组研究时,观察到的反应可能不再被认为是独立的。两种建模方法竞相捕捉这种设计中出现的相关性。总体平均模型依赖于广义估计方程,而广义线性混合模型使用(受限)最大似然来计算参数估计。我们描述了这两种方法的不同之处,并使用它们的不同来衡量在GLM框架中忽略协变量的后果。
吴小君
学习带隐变量的有向无环图 Marloes Maathuis教授 8月- 2018
文摘:Frot, Nandy和Maathuis(2018)提出了一种称为LRpS+GES的方法来估计带隐变量的有向无环图(DAG)的马尔可夫等价类。该方法的一致性要求观测变量的DAG是稀疏的,并允许少量的隐变量对较大比例的观测变量有影响。

在本文中,我们考虑了Frot et al(2018)中隐变量条件的一些松弛。特别是,我们允许存在两种隐变量:受稀疏性条件限制的任意隐变量,以及Frot等人(2018)中对观测变量的很大比例有影响的隐变量。我们提出了一种新的LRpS+(R)FCI方法来解决这个问题。该方法的思想类似于LRpS+GES。第一步去除对大部分观测变量有影响的隐变量。第二步是应用(R)FCI。推导了LRpS+(R)FCI的一致性条件,并给出了一致性证明。在模拟研究中,与传统的因果结构学习方法相比,我们的方法表现出了优越的性能,但总体上并不比LRpS+GES表现更好。然而,在一些特殊的模拟设置下,我们的方法在估计精度上优于LRpS+GES方法。
Andreas Psimopoulos
识别衰退前的宏观经济条件:统计和机器学习方法的比较 Nicolai Meinshausen教授 8月- 2018
文摘:
预测衰退是一个典型的计量经济学挑战。在2008年的金融危机之后,很明显,预测此类事件的能力可以防止数百万人的生活受到非常严重的后果的影响。机器学习在科学应用中的迅速采用和计算统计学的最新进展为一种新的计量经济学方法铺平了道路,这有可能从根本上改变主流计量经济学的演变。为了识别经济衰退之前的条件,在本文的框架下开发了一种新的算法。所谓的“平均树算法”旨在提供可靠且易于解释的结果,以判断经济衰退前一年的宏观经济状况。该算法的两种变体和八种额外的统计或机器学习方法在样本外性能的六个评估指标方面相互比较。分析的数据集涉及六个国家(澳大利亚、德国、日本、墨西哥、英国、美国),时间跨度超过40年。性能最好的方法是支持向量机(SVM)。基于支持向量机的模型对一半国家的衰退前时期进行了至少75%的正确分类,在这些情况下,平均总体分类准确率约为90%。此外,本研究是关于经济危机的几个理论的基准。 Despite the complex nature of business cycles, it seems that policymakers can take advantage of this thesis’ methodology by using its results as early warning signs of potentially upcoming recessions.
赛义德·胡赛尼
使用合取贝叶斯网络量化癌症进展的可预测性 Marloes Maathuis教授
Niko Beerenwinkel教授
8月- 2018
文摘:测量癌症进展的可预测性为我们提供了一个前所未有的机会,以获得对这种广泛导致死亡的疾病的诊断和治疗的定量见解。癌症是一种以进化为基础的疾病,因此它可以从累积的关于进化可预测性的知识中受益。然而,量化进化可预测性的主要方法依赖于适应度景观的概念,这是不可能在体内对癌症进行经验测量的,并且从横断面突变数据推断具有挑战性。在这项研究中,我们的目标是绕过适应度景观的需求,建立一个稳定和可扩展的统计框架,使用联合贝叶斯网络(cbn)直接从横断面数据量化癌症进展的可预测性。利用先前研究(Diaz-Uriarte, 2018)的模拟数据(该研究在适应度景观和cbn之间建立了联系),我们表明,使用我们的方法直接基于突变数据估计的可预测性与在强选择弱突变(SSWM)假设下从相应的适应度景观获得的可预测性具有很强的相关性。因此,我们基于CBN的方法可以准确地捕捉肿瘤基因突变顺序的潜在进化约束。重要的是,我们确定了具有S (n)个基因的CBNs的可预测性与具有给定集合的较小CBNs的平均可预测性之间的简单关系
穆罕默德·哈桑·穆罕默德·罗姆
统计过程控制 马库斯·卡利施博士 8月- 2018
文摘:在本论文中,我介绍了一种基于ARL_1图的AUC来测量控制图性能的新方法。度量控制图性能的标准方法假定执行者指定一个目标位移,这对于许多用例来说是不切实际的。本文中讨论的替代方法依赖于从业者指定目标移位范围。在这篇论文中,我还比较了Shewhart, CUSUM, EWMA和CPD控制图使用新的度量,并发现相反,当控制图是专门为预定的目标位移设计时,EWMA控制图比CUSUM控制图表现得更好。
尼古拉Gnecco
重尾数据中的因果关系 Nicolai Meinshausen教授 8月- 2018
文摘:我们介绍了一种从重尾数据中估计因果顺序的新方法。我们从二元系数Γ开始,以检测重尾变量之间的因果方向。
该系数由Engelke、Meinshausen和Peters(2018)提出,也可以检测隐藏混杂因素的存在。我们研究了具有任意数量变量的线性SEM中Γ系数的总体性质。此外,我们证明了在某些假设下,线性扫描电镜的源节点是可以识别的。基于这一结果,我们构建了四种相互竞争的算法来从观测数据中恢复图的因果顺序。我们在模拟数据上比较和测试了算法的样本特性。我们表明,当重尾假设得到满足时,我们的算法在大样本极限下表现同样出色。最后,我们在存在隐藏混杂因素的情况下测试算法。
洛伦茨Haubner
乐观二进制分割:高维图形模型中变化点检测的一种可扩展方法 彼得博士教授Bühlmann
你Kovacs
4月- 2018
文摘:我们考虑在非齐次高维数据序列中寻找结构断裂(也称为变点)的问题。在变化点之间,假设数据是同分布的,例如多元正态分布。这可以解释为在分段常数图形模型中寻找变化点。给出了基于邻域选择思想和计算算法的不同估计器。具体来说,重点在于设计
在观测数量上规模良好的方法。现有的算法,如动态规划和二进制分割需要许多评估,这些评估至少是线性扩展的,但在某些情况下,甚至与观测数量成二次。因此,它们实际上不适合处理大规模数据,特别是在高维环境中,即使单个模型的估计也是昂贵的。二值分割的扩展被称为乐观二值分割,据我们所知,这是第一个具有对数的方法,因此所需模型拟合的次线性数。此外,该方法可能适用于更普遍的变点检测。虽然没有理论结果显示,模拟研究证明了优越的计算性能,并强有力地表明,精度是相当现有的方法
的情况。
杜米尼克把
用混合效应模型从网上评价预测瑞士餐厅的成功 马丁博士Mächler
丹尼尔•穆勒
4月- 2018
文摘:越来越多的用户生成内容,如消费者评论和在线评分,可以通过TripAdvisor等评论平台获得。许多研究都调查了电子口碑对酒店财务绩效的影响,但对餐厅绩效的研究很少。本研究调查了在线评论对美食行业的影响,以及它对餐馆财务业绩的预测能力,以收入和增长为衡量标准。

因此,我们收集了包括TripAdvisor上所有瑞士餐厅在内的纵向数据,以及谷歌、Äôs评论页面、瑞士地理等级和瑞士联邦统计局旅游卫星账户的数据。此外,瑞士保险公司和瑞士经济研究所(KOF)在ETH Z√ºrich提供了两套保密的、独立的个体餐厅微观数据集。通过记录链接将这些数据集合并后,应用了混合效应模型。

本研究的结果表明,在线用户贡献的在线评论数量对收入和增长有积极影响。然而,在线评分、收集的餐厅属性或位置对酒店收入和增长的影响并不能完全成立。

因此,预测能力是有限的。然而,在KOF数据集上,广义线性混合效应模型可以优于基线,并能够对收缩和非收缩餐厅进行分类。因此,没有正确的预测被用来解释餐厅,Äôs表现。

西尔维娅舒马赫
机器学习满足时间序列分析:预测苏黎世市的停车入住率 马库斯·卡利施博士 4月- 2018
文摘:交通拥堵是城市地区的一个主要问题,高达30%是由寻找免费停车位的汽车造成的(Shoup, 2011)。数字停车位管理和物联网(IoT)可以通过传感器技术收集停车场的入住率数据。预测入住率,并将这些预测整合到智能导航系统中,可以减少城市地区的污染,降低汽车司机的压力水平。
本论文旨在开发一个方法论框架,以实证预测苏黎世市的停车场占用率。所调查的预测包括从提前15分钟到提前1天的视界。比较了七种不同的预测因子。其中两个应用了专门处理时间序列数据的方法(递流神经网络(RNN)和SARIMA),其中三个生长了树的集合(随机森林(RF),随机梯度增强(GBM)和极端梯度增强(XGB))。线性模型(LM)和预测最新观测结果的插件方法作为比较目的的基线。
据作者所知,这是第一个提出整个城市停车场单一预测模型的研究,也是第一个利用由数年组成的数据库的项目。此外,本文还分析了停车场入住率预测问题在其他城市的推广效果。这是通过比较仅基于停车场时间序列的特征集与包含天气、事件和定价信息等信息的扩展集来实现的。
本文所提出的框架既适用于公共部门,也适用于私人停车场业主。因此,它可以作为一种手段,为未来智慧城市的发展做出重要贡献。
Jeremy Jude Seow
大规模定制金融建议的推荐系统 马丁博士Mächler
丹尼尔·伦茨博士
4月- 2018
文摘:传统上,客户关系经理需要投入时间和繁琐的计算,就客户可能有兴趣购买的新投资工具提出个性化建议。为了在私人银行的背景下自动化这一过程,两种现有的基于模型的协同过滤推荐算法,信心加权模型和自适应增强个性化排名(AdaBPR)模型适用于两个不同的金融数据集并对其进行评估。这些推荐系统旨在最大限度地提高客户同意购买推荐工具的接受率。我们提出了第三种新算法,自适应置信度(AdaCF)模型,它从AdaBPR中借用了增强框架的元素,并将这些元素与从预先构建的置信度权重中获得的额外信息结合起来。这些模型都以普通的Popular模型为基准,该模型通过在所有用户中找到全球购买最多的投资工具来提出建议。每个推荐系统的性能使用四个不同的排名指标进行评估:接受者工作特征曲线下面积(AUC),平均排名百分位(%MR),归一化贴现累积增益(nDCG)和平均平均精度(MAP)。结果表明,我们的新型AdaCF模型在基准模型中总体表现最好,在某些情况下只有略低的度量分数。AdaCF也显示出对使用未优化的潜在特征数量k不太敏感,因为与使用单个组件相比,当使用推荐学习器的集成时,排名性能受到的影响较小。
曼努埃尔的女儿
优化公共交通,重点研究机器学习中的应用 Nicolai Meinshausen教授 4月- 2018
文摘:最佳公共交通正在成为众多应用领域的主要工具,尤其是在机器学习领域。最近出现的近似求解器允许将这种计算繁重的机器应用于大规模数据问题。特别是距离和相似性的诱导概念(通过最优运输成本定义)在分析数据时非常有趣,因为它提供了捕获基础信息几何结构的独特能力。此外,它还能够比较基本上所有可以表示为度量的东西,从图像的经验分布到3D字符。
另一方面,最优运输问题具有非常丰富的理论基础。这类问题的解决很大程度上取决于空间的结构以及代价函数和相关度量的规律性。这自然导致了关于数值方法和应用的新贡献的截然不同的动机——往往使找出两者之间的正确联系变得极其困难。
这篇论文的目的是在一个合适的框架中提出大规模交通问题,以便在机器学习中可能的应用。这是通过以一致和严格的方式将理论,计算方面和应用相互联系来完成的-特别强调离散和大规模的问题。

郑龚
连续双机器学习方法及其应用 Nicolai Meinshausen教授 4月- 2018
文摘:在\cite{chernozhukov2016double}中,提出了一种双偏机器学习(Double/Debiased Machine Learning, DML)方法,该方法允许在某些结构假设下,二元处理变量的处理效果估计达到一致性率平方根-$n$。
本文的目标是提出一种连续版本的DML方法框架,并基于所提出的连续双机器学习方法(CDML)给出相似的一致性和渐近正态性结果。
在本文中,我们具体提出了两种CDML方法,即有样本分裂的CDML和没有样本分裂的CDML。我们将分别对这两种方法的有效性给出适当的假设。
与\cite{chernozhukov2016double}类似,我们将表明所提出的CDML方法框架适用于持续治疗效果模型(CTE)和工具变量模型(IV)。
在本文中,我们还包括模拟部分,在其中我们对CTE模型进行模拟:我们实现了有和没有样本分裂的CDML方法,并比较了简单回归方法(SR)和Hirano \& Imbens方法(HI)在误差和偏差方面的性能。仿真结果表明,我们的方法,特别是样本分割的方法,在各种仿真设置中都表现良好。最后,提出了该CDML框架的局限性以及未来扩展和泛化的可能方向。
西蒙《
生成随机森林 Nicolai Meinshausen教授 3月- 2018
文摘:当数据集中的观测数据数量有限时,通常需要生成与原始数据具有相同特征的新数据点。我们引入了一种迭代的样本生成过程,该过程使用级联随机森林逐步生成与真实数据越来越难区分的观测数据。所提出的算法嵌入在R中一个易于使用的函数中,该函数接受数据集作为输入,并返回所需数量的新观测作为输出。我们发现,在只有几个变量的数据集上,这个过程表现令人满意,
这意味着底层数据生成过程得到了很好的响应。然而,在几个不同的数据集上的应用程序显示,随着变量数量的增加,性能迅速下降。此外,方差与新观测
都生成的似乎太大了。
Meta-Lina Spohn
基于神经和计数的词嵌入中的语义和句法意义 Nicolai Meinshausen教授 3月- 2018
文摘:
在本论文中,我们研究了最先进的词嵌入模型及其属性。来自工具箱Word2Vec (Mikolov, Chen, Corrado, and Dean(2013)和Mikolov, Sutskever, Chen, Corrado, and Dean(2013))的连续词袋模型(CBOW)和连续跳过- gram模型(SG)在构建语言模型时使用在大型文本语料库上训练的神经网络来构建词向量。加速技术分层软最大(HS)和负抽样(NS)有助于提高这些模型的性能和效率。GloVe模型(Pennington, Socher, and Manning(2014))是一个对数-双线性回归模型,主要基于文本语料库中单词的共现统计。Word2Vec模型和GloVe模型的共同之处在于,所得到的嵌入向量表现出一种被称为加性组合的特性。这意味着词的语义和句法意义是由向量捕获的,简单的向量加法和减法反映了这一意义。带有负抽样的Skip-Gram (SGNS)的一个突出例子是,king这个词的嵌入向量减去man的向量加上woman的向量,结果大约是queen的向量。这是令人惊讶的,因为模型仅通过纯文本数据训练来学习单词的含义。
我们详细分析了不同模型的结构,展示了它们与进一步的简单模型之间的关系,并证明了在某些约束条件下,某些模型是如何产生可加性的。在最后一个附加章节中,我们对应用于互联网平台reddit的文本数据的模型进行了实证研究。
斯特凡诺Radaelli
使用无监督统计方法对Twitter流的事件检测和描述 Marloes Maathuis教授
Didier Sornette教授
艾伯特·布莱勒博士
3月- 2018
文摘:Twitter是一个宝贵的数据来源,可以用来分析引发用户讨论的事件。这个社会网络提供了机会来研究随着时间推移现实世界事件的动态,以及社会系统如何对不同的刺激做出反应。本论文的目的是定义并实现一个框架,用于使用无监督统计技术在Twitter流上进行事件检测和描述。这旨在通过提供可操作的知识,为政府组织的研究目的或安全相关原因支持Twitter的监控活动。第一步是将事件识别为时间序列上的峰值,该时间序列描述了使用指定标签发布的推文的数量,因此该问题属于异常检测领域。基于分解的检测方法,直接考虑时间序列的结构,提出了优越的性能,特别是当使用STL分解和具有鲁棒趋势估计的分解时。然后通过时间序列聚类对检测到的峰值进行基于其时间形状的分析,以识别重复出现的时间模式。对各种聚类方法进行了详细的研究。这包括对时间序列进行特定距离测量的分区和层次技术,例如基于形状的距离、动态时间翘曲和从TOPS(对称热最优路径)方法导出的距离。使用基于形状的距离和相关的质心函数对k-means进行修改,根据内部评价指标,即平均轮廓宽度和COP指数,返回最佳分区。 Five relevant clusters are therefore analyzed by looking at the evolution of proportions of tweets and retweets over time, describing the activity triggered in the network by an event. This enables the identification of two common patterns characterized by exogenous spikes, along with three shapes that feature seasonality and varying growth and relaxation signatures around peaks. Changepoint analysis is included as last step to offer additional insights about the internal dynamics of events: in particular, BFAST (Breaks for Additive Season and Trend) method allows a clear definition of evolving temporal phases. The relevance of the framework developed is demonstrated by providing significant examples using a defined sample of Twitter data.
尤利娅•Kulagina
求解微分方程的人工神经网络 Fadoua Balabdaoui博士 3月- 2018
文摘:近年来,计算机技术的迅速发展使得许多以前只能用理论分析的数学问题可以用数值方法来解决。这种可能性开辟了许多新的研究领域
统计学家和计算机科学家。机器学习算法,特别是神经网络,在解决需要科学计算的问题方面表现出色。这些问题可能来自物理学、自然科学、工程学、经济学和金融科学等各个学科。固体力学是连续介质力学的一个分支,研究固体材料的行为。在本论文中,我们分析了施加在材料上的力的量,称为应力,与相应的变形量之间的关系
应变:一种被称为应变的物质,它可以用微分方程组的形式表示,但必须服从一定的边界和初始条件我们试图通过在两个不同的框架中应用神经网络模型来解决应力-应变关系建模任务。第一种方法是基于理论的,并试图通过使用一个简单的前馈神经网络,通过逼近包含本构方程的边值问题的真解来找到问题的数值解。第二种方法是基于使用具有复杂架构的深度神经网络,即RNN编码器-解码器模型,将原始问题视为序列到序列的建模任务。通过将该模型应用于综合生成的应力和应变历史数据集,我们试图预测任意应变历史的应力历史。

胡安José Leitón-Montero
基于贝叶斯层次模型的欧洲多模式气候预测的统计分析 Nicolai Meinshausen教授
Hans-Rudolf Kuensch教授
2018年2月,
文摘:利用层次贝叶斯模型分析了CH2018多模式集合(RCP8.5)在PRUDENCE地区的季节温度和降水预测。该模型的实施扩展了Kerkhoff(2014)、Tay(2016)和Künsch(2017)所做的工作,评估了每个区域-季节组合的温度和降水变量。
对偏差假设系数、气候平均值、年际变率和加性偏差相关参数的后验分布进行了估计。同样,关于1995年的气候变化估计数是按五个不同的时间范围计算的。在分析的所有区域-季节组合中发现了温度的普遍变化模式,而降水则确定了季节依赖性和区域依赖性模式。
通过比较与RCM-GCM链相关的偏置分量及其相应的驱动程序,评估了由于动态缩放引起的绝对可加性偏置的减少。根据上述成分至少减少20%的概率对结果进行评估,并根据该值对区域-季节-链组合进行分类。
姗姗朱
运营管理中单位分类与聚类的实证研究 Marloes Maathuis教授 2018年2月,
文摘:本文主要讨论了快递公司运营管理中的一个典型问题。在运营中,整个服务区域被划分为许多管理“单位”,一个公司有数千个单位。为了更好地管理,这些单位需要分成不同的组。根据人工标记的单元数,我们可以将问题分为两个子问题:有序分类和聚类。

在序数分类中,我们尝试了三种方法:1。将分组转换为数字,并对连续变量进行回归,将预测转换回分组;2.应用多类分类;3.应用由E. Frank和Alan Agresti提出的排序方法进行分类。对于第一类,在回归步骤中使用线性回归和支持向量机(回归),并使用四种后处理方法(“最近类”、“比值”、“基于高斯分布确定边界”、“基于核密度估计确定边界”)。分类还使用了逻辑回归、有序逻辑回归、支持向量机(分类)、分类和回归树、随机森林、梯度增强树、基于高斯混合模型的分类和超级学习器。由于数据是不平衡的,所以采用SMOTE方法得到更平衡的数据。

在聚类问题中,我们尝试了高斯混合模型下的无监督学习和半监督学习。

为了衡量排序分类和半监督聚类方法的性能,我们计算了精度、f1分数、精密度、灵敏度、MSE和MAE。此外,考虑到我们的响应变量是有序的,我们还提出了四个“近”度量:精度(near)、f1分数(near)、精度(near)和灵敏度(near)。

在有序分类问题中,超级学习者在准确率和MAE方面表现最佳。线性回归与“最近”后处理显示最好的所有四个“近”措施。支持向量机(回归)在精度和MSE方面表现最好。有序法和平衡数据的支持向量机(分类)在灵敏度和f1分数方面表现最好。在聚类问题中,随着标记数据比例的增加,半聚类的性能越来越好。

2017

学生 标题 顾问(s) 日期
Christoph Conradi
动力系统的模型选择 Joachim M. Buhmann教授
马丁博士Mächler
11月- 2017
文摘:动力系统是能够描述自然科学中复杂关系的数学模型。目标是根据模型生成的数据推断真实的底层模型。在有噪声的观测条件下,从一组相互竞争的模型中选择正确的模型是极其困难的。这是由于大多数动力系统的高度非线性,以及由于传统的模型选择方法如马尔可夫链蒙特卡洛所需要的计算资源。
通过将平均场梯度匹配算法应用于模型选择,提出了一种新的、成本更低的模型选择框架。在合成数据上的实验表明了该框架的优点。特别是小的动力系统可以快速和准确地选择。然而,为了选择复杂的现实系统,还需要进一步改进梯度匹配或高斯过程回归。
帕特里夏·卡尔沃Pérez
电子健康档案的文本挖掘 Karsten M. Borgwardt教授
Nicolai Meinshausen教授
Damián罗奎罗博士
11月- 2017
文摘:在这个项目中,我们实现了一个基于重症监护病房住院病人的临床记录的死亡率预测模型。我们关注住院、30天和1年后的死亡率。我们的最终目标是通过应用为每位患者提供准确预测和个性化建议的算法来改善决策。所提出的方法包括一个对文档的固有结构建模的卷积神经网络(CNN)。它还结合了一种技术,使我们能够可视化患者临床记录中最相关的句子。我们提出了一个严格的比较与知名的信息检索方法,如词袋(BOW), tf-idf和潜狄利克雷分配(LDA)。结果表明,该模型可以识别已知的死亡原因和症状,并有效地自动处理复杂的语言语义,如短语和否定。这是对基线的重大改进,基线不提供可解释的结果,仅依赖于单词语义。另一方面,在性能方面,tf-idf基线大大优于神经网络模型。当使用具有不同超参数配置的cnn集合时,得到了类似的结果。 We further present a supervised approach for disambiguating common acronyms in clinical data. In particular, we deve-loped a system for disambiguating 74 acronyms in clinical discourse. Our method achieved extraordinary perfor-mance in the validation set across all acronyms and remarkable generalization power in an independent dataset. We also evaluate the impact of this algorithm on the mortality prediction task by incor-porating it as a preprocessing step.
Markela Neophytou
在回归模型中使用转换 马库斯·卡利施博士 11月- 2017
文摘:统计分析中最常见的步骤之一,特别是在回归模型中,是响应和/或预测变量的转换,因为转换可以使统计推断更可靠。在这篇论文中,我们研究了回归模型(参数和非参数)中转换的使用。首先介绍了使用变换的原因,然后提出了对响应变量变换后的结果进行解释的理论。唯一的假设是转换使数据的分布近似对称。然后,我们比较了比例数据的常见变换,即反正弦变换,在二项比例数据的情况下与广义线性模型进行比较,在非二项情况下与logit变换进行比较。本研究扩展到二项数据与过度分散评估替代模型(广义林耳混合模型和准似然模型)。此外,对于小样本,研究了精确逻辑回归的应用。本文最后以Box-Cox方法求最优响应变量变换的正态性、同方差性和线性性来结束本文的参数部分。然后,我们转向非参数回归,因为在许多情况下,简单的转换无法满足所需的假设。可加性模型可以看作是预测变量的非参数变换; still a ‘traditional’ transformation can be used on the response vari- able to improve the results. The application of additive and generalized additive models is explained in detail through examples. In the end, the Additivity and Variance Stabilizing transformation is presented and applied in datasets. This method is, in a practical way, an extension of the Additive models, as it finds non-parametric transformations for the response and the predictor variables simultaneously, that stabilize the variance and make the relationship linear. These non-parametric methods are useful tools for finding trans- formations that can be used in a parametric way (parametric terms in an additive model or a fully parametric model). For all the aforementioned methods, the very important step of checking the requirement assumptions is explained in detail.
Srivatsan Yadhunathan
全息网络上的分散组合优化 Evangelos Pournaras博士
Nicolai Meinshausen教授
2017年10月,
文摘:
组合优化问题通常用层次网络来解决,例如树。这种网络可以通过使用Holarchy来建模,Holarchy是一种使用自治代理作为网络一部分的分层自组织技术。这为网络提供了更大的灵活性。在这篇论文中,我们以I-EPOS为例评估了整体模型的性能。我们使用三种初始化方案:异步全息、同步全息和全全息来预先优化I-EPOS网络的子树,在使用I-EPOS对它们进行全局优化之前充当“holon”。我们通过测量聚合计划的方差来评估它们的性能,这作为系统的整体成本。我们还研究了作为局部成本的代理人的方案偏好,以及代理人方案选择之间的标准差,从而给出了系统的不公平性。我们扩展了I-EPOS算法,以在仿真环境中并行执行这些初始化方案。这些模型的预优化和同时执行为系统在搜索最优时提供了更高的自由度。我们还开发了混合全息算法,该算法将递归局部优化技术与全全息和同步全息算法相结合,实现分散的组合优化。 Experimental evaluations of the proposed algorithms for various real life applications show a potential to improve the opti- mization performance of the network.
Vaibhav克利须那神
推荐系统矩阵分解的深度非线性方法 Andreas Krause教授
尼诺·安图洛夫-凡图林博士
2017年9月-
文摘:在信息爆炸的时代,推荐系统已经被证明是有用的,在这个时代,这样的系统帮助确定向个人消费者提供哪些信息,允许在线用户快速找到个性化的信息。协同过滤方法被证明是有效的推荐系统预测用户偏好使用过去已知的用户评级项目。虽然这些方法在研究界得到了广泛的研究,但仍然局限于矩阵分解的不同变体。然而,从这些特征中学习到的潜在因子与原始特征之间的映射可能包含相当复杂的具有较低层次隐藏属性的层次信息,这是经典的一级矩阵分解无法解释的。在这篇论文中,我们的目标是提出一种新的多层非线性方法来研究NMF的变体,它能够学习这些隐藏的属性。首先,利用所设计的多层非线性方法,构造一个具有显式评分的用户-物品矩阵,并学习用户和物品表征的潜在因素。其次,该架构采用不同的非线性和优化器来构建,以更好地了解该空间中的潜在因素。我们表明,通过这样做,我们的模型能够学习更适合几个基准数据集上的推荐系统的低维表示。

安德里亚·马扎
动态线性模型在寿险市场中的应用 彼得博士教授Bühlmann
马塞尔·德特林医生
2017年9月-
文摘:
这篇论文的目的是研究过去30年一些国家的整体寿险保费与国内生产总值之间的相关性:这不是一个纯粹的理论研究,而是一个应用工作,可以被保险市场使用,特别是瑞士再保险公司解决方案,我从2015年开始工作,作为预测未来市场如何的指导。不同的技术被用于拟合这些数据,从统计模型,如线性时间序列回归和动态线性模型,到更多面向计量经济学的方法,如固定效应估计器。
总体目标是分析过去几十年的这种相关性,控制人寿保险市场的一些其他关键因素,以及世界上一些可能与人们投保意愿有关的冲击。此外,我们将尝试识别多年来任何隐藏的演变模式,由于著名的状态空间表示,只能使用一些动态线性模型才能看到,最终将与之前介绍的其他更经典方法的结果进行比较。
这项工作所取得的主要结果与寿险保费与国内生产总值之间的正相关有关:这一事实在所有研究模型中都清晰可见,唯一的例外是中国,它似乎具有一种特殊的模式。在本研究中,国家之间也强调了一些差异,特别是与目标变量以不同方式相关的其他协变量。
同样重要的是要指出,由于模型的内在性质,在模型之间进行深度比较并不完全公平:时变方法比固定方法具有更大的灵活性,这意味着它将实现更好的数据拟合,这可以通过更好的残差分析清晰可见。
最后,这些模型为寿险承保人和专家提供了强有力的暗示,他们可以根据历史数据来预测未来市场对一些冲击以及经济行为的反应。关键是要指出,这些模型是为了尽可能普遍地创建的,因此为了更好、更准确地了解特定国家,应该在所需的模型中插入特定的市场冲击和法律信息。
由于大量读者可以阅读这部作品,技术刚性在范围上较少,进入一个更实用的讨论方向,以理解正在发生的事情,并为未来做出有意义的决定。
Samarth舒克拉
通过深度强化学习的无地图导航 Andreas Krause教授
Roland Siegwart教授
8月- 2017
文摘:在深度神经网络的表示学习能力的辅助下,强化学习使研究人员能够解决复杂的决策问题,其中最著名的是AlphaGO,一个击败棋盘游戏GO冠军的计算机程序。深度强化学习也被应用于机器人领域,使机器人能够直接从原始传感器输入中学习复杂的行为。

在本文中,我们提出了一种基于强化学习的方法来解决机器人中的无地图导航问题。我们在仿真环境中训练了一个端到端的无地图运动规划器,它将目标数据和激光传感器数据作为输入,并输出机器人运动命令。我们展示了在特定环境中训练的模型可以成功地用于其他看不见的环境中的导航。我们还将我们的规划器的性能与最先进的基于地图的运动规划器进行比较。
安德烈斯·卡米洛·罗德里格斯·埃斯卡隆
使用生成对抗网络合成暗物质分布 彼得博士教授Bühlmann
Aurelien Lucchi博士
Tomasz Kacprzak博士
8月- 2017
文摘:为了了解暗物质分布的特性,n体模拟技术通常被宇宙学家使用。它们由一个装有数百万个粒子的盒子组成,这些粒子由于宇宙时间的引力而相互作用。精确计算这些相互作用是昂贵的(Teyssier et al., 2009),新的方法可以帮助以更快的方式重现这些模拟。生成对抗网络(GANs) (Goodfellow et al., 2014)可用于此目的。它们不依赖于最大似然估计(MLE),并避免了像其他依赖于MLE的生成模型一样需要近似的难以处理的概率函数的已知问题(例如变量自动编码器(Kingma和Welling, 2013))。GANs已经能够生成真实的自然图像,它们在宇宙学中的应用才刚刚开始。我们展示了如何在n体模拟上训练GANs,以重现类似于主要特征的高质量样本,并保持与训练集的统计独立性。为了验证这一点,我们使用功率谱、交叉功率谱和峰值统计。它们是非常接地气的,主要用于评估n体模拟(Kilbinger, 2015;刘等,2015; Kacprzak et al., 2016; Dietrich and Hartlap, 2010). These metrics allow us to go beyond visual inspection and give us a robust way to measure the performance of our generative model.
Kalina Cherneva
金融部门的流失建模:一种机器学习方法 马库斯·卡利什
格奥尔基Nalbantov
8月- 2017
文摘:客户流失分析的目的是预测现有客户将在一家公司处理其所有产品的概率。这篇硕士论文试图找到表现最好的
一种模拟银行每个客户流失概率的算法。我们回顾和比较了超过20个预测模型使用面积下
ROC曲线作为绩效指标。梯度树增强被证明是最好的表现。此外,不同模型的集成改善了结果。增强学习和集成学习是处理二元分类问题的最先进的方法
这类。Friedman的梯度增强机是一种分阶段的加性算法,通过以梯度下降的方式添加弱学习器来最小化模型的损失。集成学习已被证明可以提高独立算法的性能
通过识别特征空间中每个模型表现相对较好的部分。此外,我们的目标是根据经验推断,将搅拌者与非搅拌者分开的决策边界(尽管未知)是否在特征中是附加的,或者是否存在相互作用项。这是使用平滑样条来增加基础学习器的复杂性。将复杂可加性边界与相互作用深度较高的树进行比较,表明需要相互作用。最后,我们检验了人为平衡数据集与多数类欠抽样的影响。这与在不平衡数据集上训练的模型的性能进行了比较。我们表明,平衡数据集提高了所有算法的性能。
卢卡斯史蒂芬
因果发现的半监督学习方法 Nicolai Meinshausen教授 8月- 2017
文摘:因果关系发现的目的是发现变量之间的因果关系。根据任务的性质,通过基于相关的经典统计学方法来识别这些关系是不可行的,因此因果关系的发现需要对因果关系进行分类的独特程序。一种普遍应用的解决方案是进行干预
实验,对系统的操作用于区分原因和结果。介入性实验并非没有缺点,因为产生介入性数据可能相当昂贵,在特殊情况下甚至不道德。在这篇论文中,我们研究
最近提出利用机器学习方法进行因果发现。半监督学习器是在对因果关系有部分了解的前提下,以观测数据为基础的。在我们的实验中,我们在包含分子生物学实验的干预数据以及由结构方程模型生成的人工数据的大型数据集上测试和比较了所提出的分类器。
Jeffrey氟化钠
经验过程理论中的渐近结果述评 Sara van de Geer教授 8月- 2017
文摘:在过去的几十年里,经验过程理论已被证明对统计学非常宝贵。宽泛地说,该理论围绕依赖于随机样本的随机过程展开。这是由经验度量的概念所精确的,这是对每一个实现的适当的概率度量。然后定义一个随机过程,使用样本空间上的任何可测量实值函数的集合,通过对经验测量进行积分。这允许嵌入许多统计问题到一个严格的数学框架。例如,大数定律(LLN)和中心极限定理(CLT)可以用这样的过程来表述,索引集F由单个函数组成。在这篇论文中,我们回顾了van der Waart和Wellner(1996)提出的经验过程的三个基本渐近结果。它们确定了函数F集合上的充分条件,使LLN和CLT在所有函数上保持一致。本文的目标是对这些结果进行严格的处理,同时力求最大程度的清晰。在四章的过程中,结果和概念逐步介绍,允许充分详细地证明最终结果。 The theorems in these chapters themselves present valuable tools used in empirical process and statistical theory: Chapter 2 introduces the fundamental notions and definitions. Chapter 3 generalizes many concepts from probability the- ory to potentially non measurable maps, while Chapter 4 introduces important probabilistic inequalities and the method of chaining. Chapter 5 deals with the hugely important concept of symmetrization and, with the ideas of Chapter 3, applies this to the non measurable map implied by the empirical process. Fi- nally, the main theorems are presented and studied in Chapter 6 and 7. The text is complemented by a wealth of results stated in Appendix A, most of them “standard knowledge” from measure and probability theory. Throughout the thesis, additional results are derived to facilitate the understanding of the in- volved theorems and definitions. We conclude by discussing some of the more recent developments in the field and provide a small application of the results studied in Appendix B.
雅各布·所罗门·阿维拉
评估可再生能源对化石燃料发电的影响:机器学习方法 Nicolai Meinshausen教授
Jan Abrell博士
Mirjam科施
8月- 2017
文摘:解决与化石燃料有关的挑战的主要手段之一是推广可再生能源。本论文旨在衡量可再生能源的影响
资源,即风能和太阳能,用化石燃料发电。由于在可用数据集中没有对照组,因此建议使用用可用数据构建的模型来预测假设情景。因果推断工具被用来可视化所研究的系统,用于协变量调整和
衡量干预措施的影响,或“治疗效果”。为了构建这种反事实分析的模型,使用并比较了几种机器学习程序,选择在样本外预测方面表现最好的程序。一旦选择了最佳模型,就可以通过预测这些模型的反事实结果来模拟四种不同的情景(可再生资源发电量的增加/减少)。然后将这些场景的结果与未进行干预的数据进行比较,以评估这些技术的影响。此外,置信区间
的结果是用bootstrap构造的,这是一种重采样技术。在这种情况下,随机森林算法被证明在拟合优度和样本外预测性能方面表现最好。分析得出,如果可再生资源的发电量减少(增加),那么化石燃料将(不)产生的电力城市数量。本研究提出了一种方法来衡量假设干预的影响,同时使用机器学习算法,而不是在计量经济学中常用的线性回归方法。事实证明,这些方法可以用手头的数据更好地拟合模型;将它们用于反事实分析可以帮助政策制定者更好地理解可再生能源供应的影响
技术,其结果可能有助于支持促进它们的政策。
Yanhao史
投资组合优化关键线算法的实现与应用 Martin Maechler博士 8月- 2017
文摘:在马科维茨的现代投资组合理论中,有效边界上的投资组合在给定的预期收益水平下具有最小的风险,或者在给定的风险水平下具有最大的预期收益。马科维茨还介绍了临界线算法,一个二次程序-
明的投资组合选择方法。与其他优化方法相比,临界线算法具有快速实现的优点,因此具有重要的应用价值。而据我们所知,只有一个用Python编写的开源代码被发表(Bailey和Lopez de Prado, 2013)。本文的目标是基于现有的Python代码
在R代码中执行关键线算法解决投资组合优化问题。首先介绍了临界线算法的数学描述。然后
利用R包FRAPO中的标准普尔500指数和纳斯达克指数,以及OLZ公司提供的资产数据,对代码的改进进行测试和分析。CLA结果的属性和相关扩展在章节中进行了讨论。并与其他优化方法的性能进行了比较。
关键词:临界线算法,有效边界,权值约束,组合优化,二次规划
丹妮拉Hertrich
使用稀疏字典学习方法进行修补 Nicolai Meinshausen教授 2017年7月
文摘:字典学习的目标是找到一个框架(称为字典),允许将一些训练数据表示为字典元素的稀疏线性组合。近年来,字典学习在各种图像处理任务中取得了最先进的结果,其中包括图像修补。本文详细分析了不同的字典学习方法在图像修复中的应用。我们考虑了四种不同的获取字典的方法:主成分分析、非负矩阵分解、交替最小化和在线字典学习。我们的目标是从面部图像训练集中找到一个字典,使我们能够将这些图像表示为字典元素的稀疏线性组合。然后,我们使用一个l1-最小化算法来重新绘制另一组面部图像的缺失像素,称为测试集。我们检查了不同字典在重建图像时的性能,其中缺失像素以正方形补丁的形式有序或随机分布在整个图像上
伦纳德亨克尔
多变量高斯分布中通过调整的有效总效应估计的图形准则 Marloes Maathuis教授
Emilija Perkovic
2017年7月
文摘:
在本文中,我们考虑了在多元高斯环境下,通过调整来估计总效应。我们引入了一个新的定理,它可以根据它们的渐近方差来比较许多有效的调整集,只使用潜在的因果有向无环图的图结构。进一步,我们使用这个结果来构造一个有效的调整集O,它总是提供最优的渐近方差。结果还表明,在所有渐近最优有效调整集中,O产生严格最优有限样本方差。
西蒙娜Daguati
处理Cox回归分析中出现的生存偏倚的可能方法 Marloes Maathuis教授 2017年7月
文摘:在随机临床试验中,生存分析领域的统计技术被广泛用于评估治疗效果。最常见的方法之一是拟合Cox比例风险模型,其中包括治疗的解释变量。在本文的第一部分中,我们遵循Aalen、Cook和Røysland(2015)的论文,该论文关注的问题是随机临床试验的Cox分析是否允许对治疗效果进行因果解释。为了说明在未建模的异质性环境中Cox风险比并非如此,我们重现了Aalen等人(2015)的理论结果和模拟研究,并通过额外的计算和模拟研究补充了材料。Aalen等人(2015)的主要结果是,由于第一个事件时间之后的风险集由之前没有发生过该事件的个体子集组成,因此失去了对风险比的因果解释。这种隐性条件作用破坏了不同治疗组之间潜在混杂因素分布的初始平衡。在文献中,这种现象被称为生存偏差。
论文第二部分的目的是讨论一些方法,使估计的因果风险比。作为第一种方法,我们将提出Stensrud(2017)中提出的脆弱性方法,该方法通过调整间隔(t1, t1 +∆)上边际风险比的Cox估计来估计因果风险比。此外,我们将引入对该方法的修改,通过在多个区间上平均调整后的估计值来减少偏差。此外,我们将考虑加速故障时间模型。Weibull分布生存时间适用于两种框架,即比例风险模型和加速故障时间模型(Cox and Oakes, 1984, Section 5.3)。这使得我们可以通过模拟不同的场景,详细比较各种方法在威布尔分布生存时间上的性能。一个重要的结论是,如果边际风险比在研究开始时的时间间隔上估计,并且间隔长度合适,那么基于边际Cox估计的方法效果良好。为了研究最佳区间长度,我们进行了几次模拟研究,并分析了它们的偏方差图。另一方面,我们发现这些方法的主要缺点是,如果数据集太小或数据点密度太低,它们的估计就会变得不稳定。在某些情况下,这种不稳定性可能会破坏分析。 In contrast, the accelerated failure time model performs reasonably well for smaller data sets. Moreover, its performance does not depend on additional tuning parameters. However, a proportional hazards model can only be reformulated as an accelerated failure time model, if the underlying distribution of the survival times is Weibull (Cox and Oakes, 1984, Section 5.3).
尼古拉斯·谭
全基因组关联研究数据的层次检验 马库斯·卡利施博士 2017年7月
文摘:
当测试高维数据集的显著性时(例如在处理全基因组数据集时),多重测试成为一个固有的问题。在这篇论文中,我们将研究如何通过聚合方法(如斯托夫方法)利用p值聚合来提高测试的能力。在处理高维数据时,我们引入了Meinshausen, Meier和Buhlmann(2009)的多样本分割技术,以计算任意大量变量的p值。此外,我们还应用了Mandozzi和Buhlmann(2015)的层次测试思想,利用数据固有的层次结构来选择具有统计意义的任意大小的聚类,同时减少所需的计算量。通过对低维和高维数据集的模拟,我们发现对于非同质数据集,当聚合单独的p值时,我们可以获得比将所述数据集集中在一起时更高的幂。此外,性能的提高并不是以更高的错误率为代价的——我们能够在聚合p值或汇集数据时实现类似的错误率。通过模拟,我们还发现,通过使用更精确的层次结构,我们可以改进层次测试的结果。最后,我们演示了论文中提到的技术如何应用于现实生活中的数据集,例如使用真实的人类基因组序列进行全基因组关联研究。
利奥马格
全基因组关联研究的统计学意义 马库斯·卡利施博士 2017年7月
文摘:
全基因组关联研究(GWAS)是一种探索性的方法,用于检测基因组中常见类型的变异与表型(如疾病的存在或性状的特征)之间以前未知的关联。最常见的变异是单核苷酸多态性(SNP),这是基因组中单个碱基对的变异。通常单核苷酸多态性单独测试与表型的关联。本文回顾了Buzdugan、Kalisch、Navarro、Schunk、Fehr和Bu hlmann(2016)提出的GWAS统计推理方法,该方法基于回归设置中所有snp的联合建模。首先介绍并说明了主要的挑战:量化高维回归中的不确定性,处理强相关变量和多重测试问题。第二部分展示了如何应对这些挑战。多重样本分割的概念允许在高维回归中构造有效的p值。层次测试利用变量的相关结构,以数据驱动的方式使其分辨率水平适应信号的强度。它们一起形成了一种算法,能够在高维设置中识别重要的单个或组snp,同时控制家族错误率。
神灯Raiskin
自动atc代码药物分类 Marloes Maathuis教授
托马斯·霍夫曼教授
卡斯滕·艾克霍夫博士
2017年7月
文摘:近年来,现代医院开始存储越来越多的临床数据,通常以文本和非结构化的形式。
这些数据可能包含宝贵的见解,可以通过应用机器学习或信息检索技术来发现和利用。

这项工作的贡献在于开发数据增强过程和开发药物处方分类器,使用最先进的循环神经网络架构。

我们开发了一个数据增强程序,并将其应用于四个不同的数据集,在此基础上评估分类器。
为了提高分类性能,我们测试了正则化技术、dropout、L2范数惩罚、目标复制和噪声激活函数。

我们的实验表明,开发的分类器在所有四个数据集上都优于基线分类器。
我们的模型在未增强的数据集上实现了平均倒数Rank为0.981,而基线实现了平均倒数Rank为0.96。
丽迪雅Braunack-Mayer
常见呼吸道病原体的干扰 彼得教授Bühlmann
Sebastian Bonhoeffer教授
Roger Kouyos教授
2017年7月
文摘:鼻病毒、流感病毒、呼吸道病毒等常见细菌和病毒对个人和公众健康构成严重负担。这些病原体同时存在于人群中,然而,对导致这些疾病的复杂因素的流行病学研究往往集中在单一病原体上。目的是
论文旨在了解常见细菌和呼吸道病毒感染的共同决定因素,重点研究病原体之间的干扰。统计推断为
用于探讨2010年6月至2015年9月在巴塞尔大学医院进行的多重PCR检测中16种常见病原体的感染发生率。通过Fisher精确的独立性检验,交叉小波分析和SIR模型
在交叉免疫方面,发现检测到的病原体的模式与以下假设一致,即对于一些常见呼吸道病毒,一种病原体的感染会干扰另一种病原体的感染。
弗朗西斯科·Ortelli
统计满足优化:随机投影和最近邻搜索 Sara van de Geer教授
本杰明Stucky
2017年5月-
文摘:在大数据时代,需要处理高维数据集的情况越来越多。结果,从计算的角度来看,一些统计技术在这类问题上的应用速度大大减慢
数据的高维数:这种现象被称为维数诅咒。此外,有时存储数据本身的成本甚至很高。我们提出了Johnson-Lindenstrauss引理的一些变体,一种数据无关的降维方法
技术,并揭示它如何应用于(近似)最近邻搜索问题,以打破维数的诅咒。当提出Johnson-Lindenstrauss引理的变体时,重点将在于它们所需要的时间
计算应用程序。对于最近邻搜索问题的应用,我们将看到Johnson-Lindenstrauss引理代表所需时间的瓶颈。最后,我们将通过执行一些模拟来完成这项工作,旨在了解如何以最好的方式实现理论。
撒母耳Schaffhauser
光学相干层析成像中高反射焦的检测 Nicolai Meinshausen教授
克拉丽莎博士Snáchez
2017年5月-
文摘:糖尿病性黄斑水肿(DME)是一种以视网膜内囊状液分配为特征的视网膜疾病。目前的治疗包括反复注射抗血管内皮生长因子(抗vegf)。最近的研究表明,高反射灶(HRF)的存在和数量可能是DME治疗反应的预后生物标志物。由于HRF的检测是费力的,人工定量化病灶似乎是不可行的。因此,自动检测
光学相干断层扫描(OCT)图像中的HRF旨在协助眼科医生的努力。
对76例二甲醚患者进行了191次中央凹中心b扫描
临床数据库,作为训练集。进一步的数据集,有88个b级扫描
来自39名患者的数据组成了测试集,并包含了两位独立观察者的注释。HRF仅在从内丛状层(IPL)到外核层(ONL)的层中进行了注释,因为手动检测在其余层中具有挑战性。在补丁上训练的监督全卷积神经网络(CNN)将中心像素分类为超反射焦点或背景。CNN由7个卷积层和2个最大池化层组成。在为系统提供足够的训练样本以拟合其参数后,系统能够检测OCT b扫描中的HRF。导出的结果与两名人工评分员在中央b扫描中对中央凹周围3mm区域的人工标注进行了比较。该分类器对两个独立分级机操作点以上的独立测试集具有自由响应接收者操作特征(FROC)曲线,以一个分级机为真值,另一个分级机为分类器。将该分类器与含有PCA成分的随机森林进行比较,结果表明该分类器的性能显著提高。提出了一种用于OCT b扫描HRF自动检测和定量的图像分析算法。实验结果表明,使用卷积神经网络来获得自动检测和基于焦点的生物标志物,可用于医学研究。
Lennart von Thiessen
基于输入数据集的线性回归及missForest的进一步研究 彼得博士教授Bühlmann
丹尼尔·斯特霍文博士
2017年5月-
文摘:
约翰内斯Gobel
用非线性时间序列方法分析金融数据 卢卡斯·迈耶博士 2017年5月-
文摘:在这篇论文中,我们将用r分析三组金融时间序列。我们将首先回顾参数线性时间序列过程,并将表明它们不足以分析金融数据。在第三章中,我们将介绍参数非线性时间序列模型,即ARCH过程
由Engle在1982年提出,GARCH过程是由Taylor和Bollerslev在1986年独立提出的。在参数时间序列分析中,为了提供好的结果,所选择的模型必须是真实的数据生成模型,而选择错误的模型将会引入偏差
第四章将提出可加性非线性模型作为非参数非线性时间序列模型的一个例子。我们在每一章中用于模拟和数据分析的R代码可以在
附录。使用了以下R包:quantmod、FinTS、rugarch和mgcv。
康拉德Knuesel
基于多元分类方法比较的ROC曲线 马库斯·卡利施博士 4月- 2017
文摘:本研究的目标是比较可用于开发基于多变量数据的诊断测试的分类方法。根据ROC曲线对两种方法进行评价。在介绍了单变量ROC曲线之后,在各种模拟设置下比较了一维情况下的估计量。这些单变量估计量是:经验的、副正态的、“对数-凹”的和核光滑的。为了评估这些方法,在小样本量和大样本量设置下,从已知分布中模拟数据。比较估计量的准确性(由它们近似真实ROC曲线的程度定义),副正态方法在小样本容量下表现最好,而对数凹和核平滑方法在大样本容量下表现最好。然后,研究的重点转向多元情况。在模拟研究中比较了以下分类方法:简单平均、无分布、LDA、QDA、逻辑回归和支持向量机。在二维情况下,除了简单平均和支持向量机之外,其他方法的表现都很相似,它们要差得多。在接下来的六维模拟中,QDA和SVM通常是表现最好的方法,尽管在某些情况下,LDA和逻辑回归的结果要好一些。 Finally, the classification methods were applied to a medical data set. In this case, LDA and logistic regression were found to have the best cross-validated performance.
伊曼纽尔普罗富莫
使用参数自举法通过有效性图的标准化找到聚类的数量 马丁博士Mächler 3月- 2017
文摘:在本文中,我们提出并研究了一种估计数据集中簇数的方法。校准方法包括将聚类有效性指标值与在参考分布下获得的指标值进行比较,从而产生所谓的差距统计量。然后,我们提出了一个参考模型的缺乏集群的混合类型
数据,可以看作是连续数据模型的一般化。我们给出了R函数来实现该方法和零模型,并在混合模拟数据上进行了仿真,测试了基于簇间可分性等参数的校准方法的性能。我们还建议稍微修改一下?ed版本
的差距统计量,并在模拟数据上进行测试。
尼娜Aerni
分类特征选择方法的评价?基于ABIDE II的自闭症阳性反应 马图伊斯教授
Pegah Kassraian Fard
N. Wenderoth教授
3月- 2017
文摘:本文评估了几种特征选择方法与支持向量机(SVM)分类器相结合,以区分自闭症和正常发育的受试者。本论文使用自闭症脑成像数据交换II (ABIDE II)数据库。该数据库包括1044个静息态功能和结构MRI扫描。首先,使用统计参数映射(SPM 12)对MRI扫描进行预处理。在高维数据集中,比如手头的数据,预测因子的数量p远大于观测值的数量n。我们用特征选择方法减小特征空间,以避免过拟合。我们通过单变量筛选方法实现了约64%的准确率
在包括功能和结构特征和协变量的特征集上进行t检验,卡方和均值差。而多元选择方法主特征分析(Principal Feature Analysis, PFA)对高维数据的准确率较低
集。与Kassraian Fard et al.(2016)仅使用功能MRI数据进行分类相比,本文还考虑了结构MRI扫描进行分析。我们没有看到预期的增加精度结果的增加
从结构特征到功能特征。事实上,加入性别、年龄和智商分数的协变量,更大程度上提高了准确性。
埃米利亚诺·迪亚兹
2017年春季统计在线森林砍伐检测研讨会 Marloes Maathuis教授 3月- 2017
文摘:
利用卫星图像探测森林砍伐可对森林管理作出重要贡献。目前的方法可以大致分为两种,一种是比较一年中相似时期拍摄的两张图像,另一种是使用生长季节拍摄的多张图像来监测变化。Zhu等人(2012)描述的CMFDA算法是一种基于后一类的算法,它实现了一种为期一年的、连续的、基于时间序列的方法来监控图像。该算法是针对来自Landsat卫星的30m分辨率、16天频率反射率数据开发的。在这项工作中,我们将算法应用于Terra卫星上modis传感器的1公里16天频率反射率数据。CMFDA算法由两个子模型组成,子模型以像素为单位进行拟合。第一个方法是估计地表反射率与一年中的某一天的函数关系。第二种方法通过比较最后几个预测的和真实的反射率值来估计森林砍伐事件的发生。为了进行比较,首先将六个不同波段的反射率观测数据合并为森林指数。然后比较森林指数的真实值和预测值,连续观测日期的高绝对差异被标记为森林砍伐事件。 Our adapted algorithm also uses the two model framework. However, since the modis 13A2 dataset used, includes reflectance data for di↵erent spectral bands than those included in the Landsat dataset, we cannot construct the forest index. Instead we propose two contrasting approaches: a multivariate and an index approach similar to that of CMFDA. In the first prediction errors (form first model) for selected bands are first compared against, band-specific, thresholds to produce one deforestation flag per band. The multiple deforestation flags are then combined using an or rule to produce a general deforestation flag. In the second approach, as with the CMFDA algorithm, the reflectance observations for selected bands are combined into an index. We chose to use the local Mahalanobis distance of prediction errors for the selected bands as our index. This index will measure how atypical a given multivariate predicted error is therby helping us to detect when an intervention to the data generating mechanism has occurred, i.e. a deforestation event. We found that, in general, the multivariate approach obtained slightly better performance although the index approach, based on the Mahalanobis distance, was better at detecting deforestation early. Our training approach was di↵erent to that used in Zhu et al. (2012) in that the lower resolution of the reflectance data and the pseudo ground-truth deforestation data used allowed us to select a much larger and diverse area including nine sites with di↵erent types of forest and deforestation, and training and prediction windows spanning 2003-2010. In Zhu et al. (2012) reflectance and deforestation information from only one site and only the 2001-2003 period is used. This approach allowed us to make conclusions about how the methodology generalizes accross space (specifically pixels) and accross the day of the year. In the CMFDA and our adapted CMFDA methodology a single (possibly multivariate) threshold is applied to the prediction errors irrespective of the location or the time of the year. By comparing the results when thresholds were optimized on a site- by-site basis, to those when a single threshold was optimized for all nine sites we found that optimal thresholds do not translate accross sites, rather they display a local behavior. This is a direct consequence of the local behavior of the prediction error distibutions. This lead us to try to homogenize the error distributions accross space and time by applying transformations based on di↵erent observations and assumptions about the predicted error distributions and their dependence on time and space. However, our e↵orts in this sense did not improve performance leading us to recommend the implementation of the multivariate approach without transforming predicted errors.
卢卡斯Schiesser
隐变量存在时使用不变预测的因果推断 Nicolai Meinshausen教授 3月- 2017
文摘:本文基于Peters, Bühlmann和Meinshausen(2015)提出的思想,将使用不变预测的因果推理扩展到允许存在隐藏变量的设置。不变因果预测利用给定不同的实验环境,例如对变量的干预,来自因果模型的预测将是不变的。因此,因果模型必须在满足这种不变性的模型中,或者在相应假设的统计检验中以高概率被接受。引入了一种较为通用的带隐变量的线性模型,并建立了该模型的不变因果预测框架。测试不变性假设然后重新表述为二次约束的二次程序,该程序通常是非凸的,因此不一定有精确解。因此,优化问题被简化为半定规划框架,其解可以在多项式时间内逼近,有时甚至可以精确地得到。本文的一个主要重点在于描述了应用SDP松弛来解决非凸优化问题的不同方法。这提供了获取此类模型中因果关系(即因果预测因子集及其因果系数)的置信度声明的具体方法。这些应用于模拟和真实世界的数据和数值实验,以研究所开发的方法的经验性质。
大卫·赵
图像处理中的散射卷积网络和主成分分析网络 Nicolai Meinshausen教授 2017年2月,
文摘:卷积神经网络在移动接受域上的参数共享的定义原则使其非常适合于图像处理任务,因为这种结构对平移和变形都具有稀疏性和不变性。然而,神经网络在理论上还没有被很好地理解,它们的标准训练方法涉及NP-hard非凸优化。在这篇论文中,我们探索了两种图像处理的替代模型:Bruna和Mallat(2013)的散射卷积网络(SCNet)和Chan等人(2015)的主成分分析网络(PCANet)。这两个模型都使用完全预定的转换集,同时保持卷积结构的优点。SCNet是由小波变换层构建的,PCANet是由pca提取的滤波器层构建的。SCNet和PCANet可以被认为是将图像转换为更具表现力的特征向量的复杂预处理步骤。为了获得类预测,我们在这些特征上运行分类算法。本文考虑了四种类型的分类器:生成式PCA分类器、线性和rbf核支持向量机、套索多类逻辑回归和随机森林分类树。在MNIST数据集上的实验表明,2层SCNet和2层PCANet的性能始终优于具有2隐含层的可比卷积神经网络。我们还测试了MNIST数据集和PCANet过滤器的变化。
加布里埃尔·埃斯帕达
状态空间模型的参数估计与不确定性描述 马库斯·卡利施博士 2017年2月,
文摘:
目前的工作旨在解决非线性回归的统计问题,也称为校准,状态空间模型。在古典文献中,例如g.a.f. Seber (1988), Douglas M. Bates(1988)或Gallant(1987),这类问题几乎完全是从频率论或贝叶斯的角度来研究的。在这里,我们提出了支持这两个框架的基本模型的理论,并仔细揭示了使用转换和在随机模型中引入自相关所需的概率背景。此外,我们详细演示了该方法在现实世界研究案例中的应用。
关键词:状态空间模型,非线性回归,参数估计,频率估计,贝叶斯估计,MCMC,大都会加速算法,吉布斯采样器,自相关误差,异方差误差
Christoph巴克
优化互补调查,绘制瑞士瓦莱州Visp附近土壤中汞的空间分布 安德里亚斯·帕普利茨博士
卢卡斯·迈耶博士
2017年2月,
文摘:对于瓦莱州维斯普附近的汞污染,对整个研究区域的一个子区域进行了地质统计分析。分析的目的是预测哪些包裹的汞含量超过一定的阈值。对两种分离方法进行了分析
以及对两层土壤进行联合3d分析。结果表明,联合三维分析在子区域具有较好的预测效果。
为了使预测更准确,必须采集更多的样本。附加抽样设计的目的是减少假阴性决策。基于Heuvelink等人(2010)和Marchant等人(2013)的论文思想,优化算法为
成功地实施。它预测了一个优化的抽样设计,减少了假阴性和假阳性的决定。用户可以设置做出假阴性和假阳性决策的损失函数的参数。基于这些参数,优化算法计算一个设计的预期损失,并研究一个优化的抽样设计。实现是通过条件模拟完成的
迭代过程包括克里格预测、期望损失计算和空间模拟退火。

2016

学生 标题 顾问(s) 日期
Manuel Schurch
分类的高维随机投影集成方法 彼得博士教授Bühlmann 11月- 2016
文摘:在这篇论文中,我们研究了基于任意基分类器的组合的多类分类的随机投影集成方法,这些分类器操作在适当选择的特征空间的低维随机投影上。这些方法特别适用于高维数据集,其中变量的维度与可用训练数据样本的数量相当,甚至大于可用训练数据样本的数量。我们从两个方向扩展了坎宁斯和萨姆沃斯(2015)最近提出的建议。首先,我们将他们的二元分类思想推广到多个类。其次,我们提出了他们加权多数投票的替代方法,将集合中的个人预测聚集到最终分配中。对于这种新开发的方法,我们提供了实现,并与合成以及现实世界高维数据集上的最先进方法进行了经验比较。其具有竞争力的预测性能为聚集随机低维投影的前景方向奠定了基础。此外,我们研究了回归和半监督分类的类似思想。
风扇吴
局部平稳性下的最优曲面估计 丽塔·高希博士
马库斯·卡利施博士
2016年10月,
文摘:给定一个空间数据集,考虑一个非参数回归模型,其目标是估计回归曲面。通过进一步假设误差项的局部平稳性,可以在不估计各种有害参数的情况下对Priestly-Chao核估计量进行方差估计。所有关于项一致收敛的证明已经在Ghosh(2015)中得到了解决。在本文中,我们利用已证明的性质,提出了一种最优带宽选择的半参数算法。然后,研究结果应用于瑞士国家森林清查数据集(http://www.lfi.ch)。
波琳娜Minkina
从观测数据学习贝叶斯网络的一种新的混合方法 马库斯·卡利施博士
杰克·柯伊伯斯博士
2016年9月-
文摘:这项工作提出了一种新的混合方法,从观测数据学习贝叶斯网络。该方法基于pc算法和贝叶斯式MCMC搜索相结合。在这项工作中有几个版本的算法。该算法的基础版本建议使用pc骨架限制搜索空间,并在缩小的搜索空间上执行随机MAP搜索或从后验分布采样。虽然这个版本产生了相对较好的结果,但在某些情况下,PC算法从搜索空间中消除了很大一部分真正边。为了克服这个问题,我们还提出了一种迭代扩展搜索空间的算法,这有助于增加真阳性的数量,从而在骨架和等价类方面得到更好的估计。
我们进行了模拟研究,并将我们的方法与其他结构学习算法的性能进行了比较,例如pc算法、贪婪等效搜索(GES)和最大-最小爬山(MMHC)。我们算法的优势在密集环境中更加明显。稀疏设置算法的性能与GES相似,但优于PC。
我们对一种新方法的计算复杂度进行了评估,该方法的计算复杂度随网络的大小呈多项式增长,随最大邻域的大小呈指数增长,这是该方法的主要局限性。由于PC算法的计算复杂度下界也随着最大邻域的大小呈指数增长,因此我们得出结论,如果PC算法对某些网络可行,我们的方法也应该可行。
Mun Lin Lynette Tay
基于贝叶斯层次模型的多模式气候预测的统计分析 Hans-Rudolf博士教授Künsch
李永明教授Bühlmann
8月- 2016
文摘:本文将Buser et al.(2009)、Buser et al.(2010)和Kerkhoff et al.(2015)开发的贝叶斯层次模型应用于全球气候模型(GCM)和区域气候模型(RCM)的异构多模型集合。贝叶斯分层框架应用于CORDEX项目欧洲分部的数据,未来气候的概率预测来自气候模式。
本文也是CH2011倡议的延续,该倡议旨在提供有关瑞士气候变化的科学依据信息,以帮助有关气候变化战略的决策和规划。它通过评估21世纪瑞士的气候变化来实现这一目标,重点是对温度和降水的预测。建议了适用于温度和降水数据的先验,并说明和解释了瑞士不同地区、不同季节和不同排放情景的概率预测。此外,Kerkhoff等人(2015)提出了一种贝叶斯模型的变体,该模型将rcm的数据与gcm的数据进行了更平等的加权,并将两种模型进行了比较。
拉维Mishra
门控循环神经网络语言模型 Nicolai Meinshausen教授 8月- 2016
文摘:“在标准的循环神经网络中,由于梯度消失和爆炸问题,长期依赖关系很难用梯度下降来学习。长短期记忆和其他门控网络结合梯度裁剪策略已经成功地解决了这些问题。这项工作提供了标准RNN和的详细信息
门控RNN体系结构。重点在于使用时间反向传播的向前和向后传递。我们训练了一个字符级神经网络语言模型的实现在精细食品评论数据。目标是建模序列中下一个字符的概率分布,当出现前一个字符的序列时。我们的实验结果表明,对于大数据集和增加序列长度的门控结构具有比传统rnn更好的性能。这与之前的研究一致。”
珍妮诺兰大半
基于惩罚最小二乘法的温度数据异常值检测 Nicolai Meinshausen教授 8月- 2016
文摘:Chernozhukov等人(2015)提出了一种新的正则化技术,称为熔岩。与套索或岭回归等传统方法相比,该方法能够发现既不稀疏也不密集的信号。仿真结果表明,该方法优于常规方法。本文在1月份气温异常资料上的应用证实了这一点。
本文的重点是套索法、弹性网法、岭回归法与熔岩法在理论和应用上的比较,主要分为五个部分。首先,所有考虑的正则化方法被描述为一个多元线性回归设置,并引入关系在标准正交设计的情况下。其次,对于温度数据的应用,必须使用r实现熔岩法和相应的交叉验证方法。第三,对给定的温度异常数据(1940 - 2015)进行分析,并对来自气候模型的温度数据进行普通最小二乘拟合,以评估四个最近值如何预测良好的温度异常值。第四,对气候模式数据进行正则化线性回归拟合,并对观测到的温度异常数据集进行预测。为此,确定了一种能够处理观测到的温度异常数据中na结构的模型拟合方法,该方法具有合理的计算时间。分析了由预测产生的残差在空间、时间和概率上的分布。此外,通过实例研究了正则化方法对温度异常数据的作用,比较了正则化方法与残差分布的关系。在论文的最后一部分,利用这些残差来检测温度异常数据中的异常值。考虑拟合线性模型的预测误差和观测数据集中na -结构的影响,提出了一种异常值检测方法。此外,还进行了人工离群值研究,以评估四种正则化方法的离群值检测能力。
伊莱亚斯Bolzern
随机角色导向模型:一致性和多网络分析的一种方法 Marloes Henriette Maathuis教授 2016年7月
文摘:随机行为者导向模型允许描述纵向社会网络,即在不同时间点观察到的社会网络。该模型既可用矩量法拟合,也可用极大似然法拟合。
本文主要讨论两个问题。首先,到目前为止,还没有证明矩估计方法的一致性。我们讨论了一种可能导致一致性证明的方法。
其次,现有的理论只允许我们研究一个单一的社会网络。我们想要研究几个纵向网络背后的共同行为。这使我们能够更深入地了解这种网络的一般行为。我们建议通过考虑极大值效应来检测共性,极大值效应可以通过磁吸类型估计器来估计。我们将新的估计量称为多群估计量。仿真结果表明,该多群估计器具有较好的估计性能,特别是在观测时间点较多的情况下。此外,该估计器在计算效率方面具有良好的性能。
你Kovacs
高维协方差矩阵估计的变点检测 彼得Buhlmann 2016年5月-
文摘:在本论文中,我们追求的目标是对具有突变结构变化的数据进行高维协方差矩阵估计。我们试图检测这些变化,并估计结果段中的协方差矩阵。我们的方法密切遵循Leonardi和Bühlmann(2016)最近提出的高维线性回归情况下的变点检测。我们提出了两种直接建立在回归估计量上的估计方法和第三种类似于回归估计量的方法,但修改以匹配协方差矩阵情况下出现的似然。我们主要关注这些建议的实施、测试和比较。此外,我们提供了补充的相关文献的协方差矩阵估计和变化点检测在类似的设置,调谐参数选择,模拟模型和误差措施,以评估性能。我们还举例说明开发的方法在现实生活中的股票回报的例子。
José Luis Hablützel Aceijas
因果结构学习与因果推断 马库斯·卡利施博士 4月- 2016
文摘:本文介绍了目前最流行的因果结构学习方法以及ICP算法背后的理论和主要思想,ICP算法是一种基于苏黎世联邦理工学院最近开发的方法的新算法。然后,我们用两种不同的方式来衡量和比较这些算法的性能。在我们的第一个度量中,我们考虑每种所考虑的方法恰好找到随机选择的目标变量的所有父变量的概率。在我们的第二个度量中,我们考虑每个方法的可靠性,不产生一个节点作为非父节点。在此,我们将重点放在线性结构方程模型(SEM)上,并将自己限制在不存在隐藏混杂因素的情况下。我们开始重现和扩展Peters、Bu hlmann和Meinshausen(2015)中给出的结果,在那之后,我们以几种方式改变数据的生成过程,以便进行进一步的比较。
帕斯卡凯撒
从在线地图学习城市结构 马库斯·卡利什
马丁Jaggi
托马斯•霍夫曼
3月- 2016
文摘:大量的遥感数据现在可以公开使用
应用范围广泛,包括自动生成地图,生物多样性变化检测,监测气候变化和救灾。另一方面,具有多层神经网络的深度学习,能够从庞大的数据集中学习复杂的模式,在过去几年里有了很大的进步。

这项工作提出了一种方法,使用公开的遥感数据来生成大型和多样化的新的地面真相数据集,这些数据集可用于训练神经网络,用于对航空图像进行像素级语义分割。

首先,生成了三个不同城市的新的地面真相数据集
由地面采样的超高分辨率(VHR)航空图像组成
以厘米为单位的距离和对应的像素级对象la-
贝尔。VHR航拍图像和物体标签都是公开的,可以通过互联网从在线地图服务下载。其次,使用全卷积网络(FCNs)来学习航空图像的语义分割,该网络最近被引入用于精确的像素密度语义分割任务。第三,对FCN基础架构进行了两种改进,从而提高了性能。第四,同时对三个城市庞大且多样的地面真实数据进行FCN模型训练,对未用于训练的地理区域航空图像进行了良好的语义分割。

这项工作表明,使用公开的遥感数据可以
用于生成新的地面真相数据集,可用于有效
为航空图像的语义分割训练神经网络。
此外,这里提出的方法允许生成巨大的和粒子的
不同的地面真相数据集,使神经网络泛化
他们对地理区域的预测没有被用于训练。
Sriharsha Challapalli
理解PC算法的复杂性,优化因果结构发现 马库斯·卡利什
http://stat.ethz.ch/~kalischm/
3月- 2016
文摘:PC算法是因果结构发现中最著名的算法之一。多年来,为了进一步优化算法,人们提出了各种各样的建议。但仍有空间去深入探索算法的复杂性。本研究旨在考察变量的数量、真图中的密度、条件独立图的使用以及进行条件独立检验的顺序等各种因素的作用。研究结果不仅有助于优化PC算法,还有助于优化基于条件独立检验的因果结构发现算法。
研究表明,骨架稳定算法是所研究的骨架发现算法中最好的。对于因果结构发现来说,与顺序无关的选项不是最好的,建议使用BC变体。研究验证了PC算法的阶数序列对因果结构发现是不可或缺的。该研究建议,对于p值非常低和密度非常低的情况,避免使用条件独立图。研究中使用的基于条件独立检验的算法必须优先于基于贪婪等效搜索的算法,除非p值极低或密度极高。
索尼娅迈耶
马拉维艾滋病毒流行的近端和远端原因分析 玛洛Maathuis
奥利维亚Keiser
3月- 2016
文摘:马拉维的艾滋病毒流行是造成死亡的一个主要原因,并对马拉维的卫生系统和经济造成极为不利的影响。因此,本论文的目的是确定可能导致艾滋病毒流行的近端和远端因素之间的因果关系。2010年马拉维人口和健康调查提供了各种各样的行为、社会经济和结构变量,以及关于12 000多名参与者的艾滋病毒状况的信息。为了发现和显示因果路径,使用了图形模型,如有向无环图。在众多不同的因果结构学习方法中,RFCI算法和GES算法被发现适用于所考虑的数据集。为了包括来自调查的样本权重,需要做一些修改。两种算法的“加权”版本在所有观测数据的随机子集上重复运行,以获得稳健估计。最后,创建一个汇总图,其中只显示具有一定频率的边。这一分析是针对三组不同的变量进行的。由于马拉维妇女中的艾滋病毒流行率明显高于男子,按性别分层提供了进一步的见解。 The proposed method is able to detect various connections between proximal and distal variables in consideration of the provided sample weights. A group of variables robustly connected with the HIV status was found. However, the proposed method has difficulties determining causal directions as these are not robust under resampling.
亚尼克·苏特
在使用质谱的呼吸分析中,生物标志物检测和分类的不同算法的实现 玛洛Maathuis
雷纳托Zenobi
3月- 2016
文摘:我们实现了不同的算法,生物标志物检测和分类呼吸分析研究使用环境电离质谱。我们用ETH Zürich的Zenobi研究小组最近完成的两项关于慢性阻塞性肺病(COPD)和囊性纤维化(CF)的研究对他们进行了测试。这些研究调查了肺部疾病导致的呼吸中存在的分子差异。

由于同位素模式和生物途径,数据集包含许多高度相关的变量。我们证明了这对解释结果是有用的,
但对生物标志物的检测和分类都没有什么影响。

对于生物标志物检测,我们使用Mann-Whitney U检验,以及Mann-Whitney U检验或弹性净回归作为选择方法的子抽样。对于分类,我们使用带有Mann-Whitney U检验的预过滤,然后使用现代高维分类方法。

在这两项研究中,生物标志物检测和分类的最佳表现方法是不同的。由于时间漂移效应,在Mann-Whitney U检验的COPD研究中,在FDR对照水平q = 0.05时未发现显著分子。对于CF研究,在q = 0.05的FDR对照水平下发现了127个分子。

在分类方面,COPD研究中表现最好的方法是偏最小二乘回归+线性判别分析(PLS-LDA),其ROC曲线下面积(AUC)值为0.90。第二项关于COPD的研究被用作验证集,它给出了PLS-LDA的AUC值为0.71
在CF研究中,表现最好的分类方法是主成分分析,其次是线性判别分析(PCA-LDA), AUC值为0.73

我们在模拟中表明,Mandozzi(2015)给出的分层测试方法在我们的设置中效果不佳。
判断崔
基于fMRI数据的自闭症分类的概率预测量化受试者水平的不确定性 玛洛Maathuis
Pegah Kassraian Fard
2016年2月,
文摘:本文旨在利用一种脑成像数据,即静息态功能磁共振成像数据,量化自闭症谱系障碍受试者与非自闭症谱系障碍受试者之间分类的受试者水平不确定性。本研究的相关受试者水平不确定性测量基于概率预测,
而前者的质量完全取决于后者的质量。从自闭症脑成像数据交换中选择的数据子集用于分类,并评估9个传统分类器结合简单阈值特征选择的标签和概率预测的质量
通过交叉验证和各种评估指标。通过L1正则化的逻辑回归得到的最佳准确率为77%。其中两个的最佳概率预测是由L1和L2正则化的逻辑回归产生的
概率评价指标,最佳概率预测是由随机森林和极随机树产生的第三个评价指标。考虑到标签和概率预测,该数据集的最佳分类器是逻辑分类器
L1和L2正则化回归和自适应增强。为了进一步改进概率预测,对上述最佳分类器分别应用了两种概率校准方法,在12个检验案例中,大多数概率校准方法都有一定程度的改进。类似的分类任务也在另一个自闭症数据集和另外两个数据集上执行,以检查在不同环境下的表现。
Jakob A. Dambon
与R中最佳方法及其实现的多重比较 卢卡斯·迈耶博士 2016年2月,
文摘:在许多科学实验中,需要同时对多个因素进行评价。多重比较说明了多重性,是同时推断这些因素的有用工具。多重比较有多种方法,其中最优多重比较(MCB)是本文研究的重点。在这里,我们试图找到最好的治疗方法,与其他方法进行比较。
本文的主要目的是将Edwards-Hsu的MCB方法实现到R中,而R不是R包多补偿的一部分。本文的主要成果是逐步推导出平衡和非平衡单因素方差分析模型中Edwards-Hsu的MCB方法的置信区间,并成功地应用于R。
Maurus Thurneysen
新一代测序仪性能分析 马库斯·卡利什
哈拉尔德Quintel
2016年2月,
文摘:分子诊断过程和数据输出的复杂性正在迅速增长。2015年12月,QIAGEN AG带着第一个完整的下一代测序工作流程进入市场,旨在为客户提供从样品到洞察的所有步骤。该generader NGS系统具有内置的样品制备,遗传密码测序以及基因序列分析,并为诊断领域的客户提供可操作的见解。
这种工作流程的质量和可靠性是确保高性能标准的关键因素。工作流中关键步骤的统计分析为实现这一目标提供了强有力的手段。到目前为止,这种方法还没有在这种情况下得到充分利用。因此,这篇统计学硕士论文的目的是分析新开发的generader仪器的性能,该仪器使用统计学习技术执行工作流程的排序子步骤。通过无监督学习方法分析来自仪器生产的质量控制数据和来自现场测试活动的数据,然后结合到监督学习问题中,从其质量控制数据预测generader仪器的性能质量。
结果发现,GeneReader仪器被校准得很好,而且它们对工作流程可变性的贡献相对较小。然而,由于可用的真实复制数量很少,这种方法的功能受到限制。尽管如此,这项调查表明,系统应用统计分析来评估和保证QIAGEN开发和生产过程的高质量和稳定性的潜力目前在很大程度上尚未开发。
斯文曼
高维推理:介绍了主要的推理方法,介绍了不平衡多样本分裂法,并对其进行了实证比较 马丁Machler 2016年2月,
文摘:在高维环境中进行统计推理具有挑战性,在过去的几十年里已成为统计学的一项重要任务。在我的论文中,我首先给出了高维推理方法的选择性概述,这些方法已被开发用于在线性模型中分配p值和置信区间,包括对每种提出的推理方法的图形调查。概述分为两部分:检测单个预测变量的方法和检测预测变量组的方法。
其次,我在高维环境中引入了一种新的推理方法,称为不平衡多样本分裂(asymmetric Multi Sample Splitting),它是对Meinshausen, Meier, and Bühlmann(2009)的Multi Sample Splitting method的改进。此外,我证明了它的家庭式错误控制。最后,我使用R包simsalapar进行了实证研究,包括三个部分:设计模拟研究,实际执行模拟和分析各种结果。
尤尔根•泽尔
为瑞士的生长模拟器分析云杉的生长和死亡率 马丁Machler 2016年2月,
文摘:本文是冷杉云杉生长和死亡率的模拟研究。这些数据很复杂,来自于瑞士各地的森林管理试验。第一部分是生长模型。65%的总变异可以用许多不同的解释变量来解释。第二部分是关于死亡率,并包含一个逻辑回归模型,这是比较生存分析方法。
马克•蒂芬妮
索链梯约束下的索赔保留优化 卢卡斯迈耶
Jurg Schelldorfer
2016年2月,
文摘:
链梯法是目前保险业中最常用的预测非寿险理赔准备金的方法。它的简单导致了两个局限性:首先,我们没有对旧的发展因素的可靠估计,这是由少数可用的观测引起的。其次,链梯法无法处理索赔保留数据中经常出现的对角效应(即索赔膨胀)。虽然许多研究论文对经典的链梯方法进行了扩展,但没有一篇论文解决了使用拉索型估计器进行约束优化的问题。套索型估计量主要适用于高维统计量,在低维问题中仍然有用。要么获得较小的显示最强影响的估计参数集,要么获得减少估计模型参数可变性的鲁棒估计量。
由于链梯模型可以理解为一个回归问题,因此可以为三个不同的模型开发拉索型估计器:一个链梯时间序列模型的回归版本,一个允许对对角线效应建模的扩展,以及一个也考虑对角线效应的过分散泊松模型。为了解决优化问题,我们建立了一个回归框架,将索赔保留数据转换为合适的数据矩阵。在实际数据集上的应用表明,拉索型估计器可以预测合理的索赔储量。对于模拟数据集,与链梯方法相比,我们通常使用拉索类型估计器获得更好的预测精度,特别是在链梯模型假设不满足的情况下。然而,拉索型估计量的解对最优调谐参数的选择和模型选择准则很敏感。最后,我们通过基于模型的自举来评估套索型链梯估计器的预测精度。lasso类型估计器的实现是在R中完成的。
本杰明·雅克布
截尾回归模型 卢卡斯迈耶 2016年1月-
文摘:研究了经验有界分布,并对这些因变量与几个自变量进行了回归。使用不同的模型(审查和未审查),并使用编程语言R编程,如Logit模型,Beta分布模型,树模型,随机森林,审查Gamma模型和它的两个轻微变化。
本文的结论是,本文提出的删失伽马模型及其扩展
与其他模型相比,Sigrist和Stahel(2011)确实表现良好,但并不总是如此,因此可能是银行和保险公司进一步调查的一个有吸引力的选择。

2015

学生 标题 顾问(s) 日期
Jakob Olbrich
凸问题的筛选规则 Bernd Gartner
彼得Buhlmann
马丁Jaggi
2015年9月-
文摘:本文给出了求解凸优化问题的筛选规则的一般方法。它分为三步。作为第一步,使用Karush-Kuhn-Tucker条件推导出允许减少问题规模的必要条件。它们取决于最优解本身。第二步是从已知的近似中收集关于最优解的信息。在第三步,也就是最后一步,这些信息被用来获得不依赖于最优解的条件,这些条件被称为筛选规则。本文重点研究了单位单纯形、单位盒和多面体作为域。所得到的筛选规则可以应用于各种问题,如支持向量机(SVM),最小封闭球(MEB), LASSO问题和逻辑回归。所得的筛选规则将与针对这些问题的现有规则进行比较。
尼古拉斯·班尼特
单细胞水平高含量RNA干扰筛选分析 彼得Buhlmann
安娜Drewek
8月- 2015
文摘:传染病是世界范围内导致死亡的主要原因之一,在我们唯一有效的防线是基于抗生素制剂分布的情况下,抗微生物药物耐药性的演变带来了令人不安的发展。解决这一问题的一种可能的方法是宿主定向治疗的替代方法,这反过来又保证了对人类感染组的细致研究。因此,由InfectX/TargetInfectX财团进行的全基因组siRNA敲除实验等大规模研究非常重要。

基于图像的高通量RNAi屏幕产生的数据集的丰富性允许广泛的可能分析方法被采用。本研究通过将广义线性模型(GLMs)应用于单细胞测量,研究基因敲除诱导的细胞表型,重点关注病原体感染的影响。为了简化对这些数据集的处理,提出了一个R包,它从一个集中的数据存储中获取查询的数据并生成数据结构,能够有效地表示分析板的逻辑。提供了预处理、操作和规范化结果对象的便利函数,以及有助于显著加快常见操作的缓存系统。

尝试了敲除和感染的表型反应的GLM分析,但没有产生令人满意的结果,很可能是由于数据规范化的问题。为了便于同时研究来自多个分析板的测量结果,探索了几种归一化方案,包括Z-和b评分,以及用多元自适应回归样条(MARS)建模技术伪影。虽然观察到一些数据质量的改善,但实验误差来源不能充分控制有意义的GLM回归。
马可Eigenmann
一种基于分数的含加性噪声的结构方程模型推断方法 彼得Buhlmann 8月- 2015
文摘:我们实现并分析了一种新的基于分数的算法,用于推断混合了高斯和非高斯分布加性噪声的线性结构方程模型。在介绍了一些知名算法的原理、伪代码、主要优缺点以及一些实例之后,详细介绍了新算法的技术部分,说明了新算法的思想。最后,我们非常详细地介绍了我们的算法,描述了它的R实现,并展示了它与前几章介绍的算法相比的性能。
帕特里克Welti
利用Stieltjes变换分析一类大维随机矩阵的经验谱分布 莎拉·范德吉尔
Alan Muro Jiminez
8月- 2015
文摘:稍后通知
PawełMorzywoł艾克
高频金融数据Hawkes过程的非参数估计方法 彼得Buhlmann
弗拉基米尔•Filimonov
Didier Sornette
8月- 2015
文摘:由于自激Hawkes模型能够很好地表示聚类数据,近年来其受欢迎程度稳步增长。在最初被应用于地震预测之后,它还被用于预测金融领域的闪电崩盘、Twitter和YouTube等社交媒体上的流行行为或大城市的犯罪爆发。
这项工作的目的是进行全面的比较研究
现有的非参数技术估计霍克斯模型,其中
的相关结构没有做任何先验假设
可观测数据,为我们提供对数据的洞察。据我所知
这样的工作到目前为止还没有人做过。首先考虑的方法是广泛的
在非参数统计中采用EM算法,调整到一种情况
霍克斯的过程。第二个过程是基于a的估计
Hawkes模型的计数过程的条件期望,然后
求解Wiener-Hopf型积分方程,得到模型的核函数。最后一种估计技术将Hawkes模型表示为整值自回归模型,然后应用时间序列理论中的工具来获得模型的参数。
这些方法在Hawkes模型生成的合成数据上进行了测试
用不同的内核和不同的参数。我研究了样本的大小和点簇的重叠如何影响性能
不同的估计方法。在进行分析时,我没有将自己限制在最常用的指数和幂律核的情况下,也考虑了不太典型的步长和截断核。综合资料比较完成后,我继续进行
实证数据分析。为此,我在E-mini S&P 500和Brent Crude期货合约价格变化的高频数据上测试了估计方法。
菲利普Berntsen
粒子滤波适用于气泡和碰撞的跳跃扩散模型,具有非局部碰撞危险率估计 马库斯·卡利什
Didier Sornette
亚尼克Malevergne
2015年7月
文摘:在所有可能出现的极端现象中,金融领域的崩溃可能是最引人注目的事件。危机的影响变得更加严重,危机的到来也更加频繁。最近的金融危机让人们重新认识到识别和理解金融泡沫和崩溃的重要性。
Malevergne和Sornette(2014)开发的模型旨在描述
潜在事件和崩溃概率的动态。在这篇文章中,泡沫是指价格在同一时期内以高于正常增长预期的速度增长。坠机危险性的非局部估计
利率考虑了不可持续的价格增长,并随着基本价值与市场价格之间的利差增大而增加。
跳跃风险的历史评估是独特的,并扩展了对嵌入在财务日志-回报数据中的崩溃概率动态假设的理解。
目前的工作主要是开发快速顺序蒙特卡罗方法,使用c++。这些算法是为了从Malevergne和Sornette(2014)引入的模型中,从离散实现的价格中学习未观察到的冲击而开发的。特别地,我们展示了如何为手头的模型推导出最佳性能的滤波器-辅助粒子滤波器。所有代码都可在附录中再现性和研究扩展。
此外,我们还展示了滤波器如何用于模型的校准
的手。然而,参数的估计是困难的。
Jakub Smajek
超越调整的因果推论 马库斯·卡利什 2015年7月
文摘:协变量调整是估计因果效应最流行和最广泛使用的技术之一。该方法易于使用,具有易于理解的理论,并可与其他统计技术相结合,以有效估计给定的因果效应。问题是,协变量调整方法是不完整的,在某种意义上,它可能无法识别因果效应,即使它可以通过一些其他方法识别。本文的第一个目标是论证上述问题,并提出一些替代技术,如工具变量技术和一种新的识别方法,可用于估计因果效应(第2章)。本文的下一个目标和主题是回答一个问题:“如果我们将因果推断限制为调整方法,它有多大的限制性?”第三章试图从单节点X和y的理论角度回答这个问题。它展示了其他作者的重要结果,并将其中一些结果推广到两种类型的图:无环有向混合图(admgg或潜在投影)和最大祖先图(MAGs)。本章表明,我们不能失去通过将DAG转换为相应的潜在投影的协变量调整来识别因果效应的可能性,并提供了一个标准,当给定的因果效应完全可识别时(通过任何方法),但不能通过ADMG g中的协变量调整。它还表明,估计因果效应的可能性可能纯粹由于从潜在投影到相应MAG的转换而丧失,并提供了一个指定何时发生的标准。第三章给出了在给定MAG M中,当X和Y是单变量时,形成调整集的必要、充分和建设性的准则。最后,部分基于本文前面推导的理论结果,在第4章进行了仿真研究。本章描述了实现问题、方法和几个不同的实验。 The experiments concentrate on a comparison of the complete identification algorithm and the covariate adjustment method in terms of proportions of identifiable causal effects. The comparison on uniformly sampled ADMGs shows a big advantage of the former method. It turns out however, that the difference is mainly caused by some simple cases that can be easily identified. Such an approach leads to the simple but very effective improvement of the covariate adjustment method, that can significantly increase the proportion of identifiable causal effects. Finally, an experiment that shows how much do we lose on a conversion from an ADMG to a MAG is performed. The problem is especially visible if we restrict the analysis to graphs that contain a causal path from X to Y.
卢卡斯Tuggener
交叉试验分析 马库斯·卡利什 2015年7月
文摘:这篇论文的目标是给读者一个交叉试验的介绍。第一章阐述了最基本的交叉设计。
以该设计为例,提出了分析交叉试验的必要理论。它展示了这种基本设计在许多情况下是如何薄弱的,并介绍了更通用的设计。有三个计算机模拟有助于建立一个直观的理解交叉设计。
本文最重要的见解是,好的设计选择总是在受试者招募、研究持续时间和设计复杂性之间进行多因素权衡。
如果可用,它将有关预期结转行为的信息以及考虑到受试者之间和受试者内部可变性的结构。
Maria Elisabetta Ghisu
稀疏PCA与稀疏CCA扩展的比较研究 玛洛Maathuis 2015年7月
文摘:在本文中,我们比较了不同的稀疏主成分分析(稀疏PCA)方法,然后将我们的研究扩展到稀疏典型相关分析(稀疏CCA)。

首先,我们研究了稀疏PCA方法,其中正则化技术包含在经典PCA中以获得稀疏负载。通过分析理论基础和算法,对不同公式进行了比较。此外,我们还进行了模拟研究,以评估在各种场景下的性能。方法的最优选择取决于目标和具体的参数组合。我们的结果表明,SPC \citep[]{Witt09}方法在恢复负载的真实结构方面通常优于其他技术,尽管真实向量和估计向量之间的角度通常很高。

随后,我们研究了紧密相关的稀疏CCA问题,其中稀疏性是强加在典型相关向量上的。在对这些方法进行理论研究之后,我们运行模拟来评估它们的质量。当两组变量的协方差矩阵不接近对角线时,CAPIT \citep[]{chen13}显示出较高的精度;否则,性能是相似的。

最后,我们考虑了稀疏PCA和稀疏CCA在真实数据集上的应用,在大多数情况下都获得了令人满意的结果。
肖烨展
业务损失事件频率建模 玛洛Maathuis
迈克尔Amrein
2015年7月
文摘:在本文中,我们研究了计数数据建模方法对瑞银13年来记录的操作风险事件的月度计数的应用。假设计数的基本分布是泊松分布,这里考虑非参数和参数回归以及时间序列模型。采用均值匹配方差稳定变换(mean-matching variance stabilization transform, VST)简化非参数泊松回归问题,将其简化为同方差高斯回归问题。应用Poisson GLM回归和广义线性自回归移动平均(GLARMA)模型,研究了观察到的外生变量与运营损失数量之间的关系,以及数据中的依赖结构。我们的分析表明,损失统计数据与金融和经济驱动因素之间存在显著联系。在数据中还发现了显著的序列相关性,特别注意泊松分布假设和过度分散问题。仿真实验验证了估计器的数值特性。
马科斯费利佩蒙泰罗弗莱雷里贝罗
用字典学习 尼科莱Meinshausen 2015年7月
文摘:字典学习方法是由Olshausen和Field(1997)提出的,是一种基于初级视觉皮层的图像模型。它已经成功地用于表示图像和音频等感官数据,也为皮层简单细胞反应中许多观察到的特性提供了解释。在这篇论文中,我们将表明该方法也可以从信息论的角度推导出来。该方法类似于Bell和Sejnowski(1995),但用概率的框架代替了神经网络的框架。我们还讨论了如何将学习到的表示用于分类,并将理论结果应用于两个现实世界的问题。在第一个问题中,我们分析GPS数据以表征驾驶风格。在第二,我们分析眼底图像的眼睛,以诊断糖尿病视网膜病变。
Oxana Storozhenko
树集合的极大极小效应 尼科莱Meinshausen 2015年7月
文摘:非参数模型,如回归树,经常被用作预测问题的主要估计方法。拟合树几乎不需要对数据进行任何假设,学习算法几乎不需要调优,数据中的非线性关系处理得很好。树的灵活性在集合学习中得到了利用,其中集合的成员是针对不同训练数据样本的树。最流行的o-货架预测算法之一是随机森林(Breiman(2001)),它构建了一个随机树的集合,这些树在数据的自举样本上训练,并对每棵树的预测进行平均。我们提出将上述算法扩展到非齐次数据的预测问题。特别是集合中的估计量可以在训练数据的不同组上进行训练,而不是使用自举抽样对数据集进行扰动。如果数据具有局部存在的异常值、污染、时变或临时影响,则以连续的方式将数据集分为组,输出更多不同的估计量。在非齐次数据环境下的另一个调整是为集合中的估计器找到权重向量,这样无论新数据点来自哪个组,未来的预测都是最优的。B´ühlmann和Meinshausen(2014)提出最小化估计量拟合值的凸组合的l2范数,并使用得到的权重以最大化每组中的最小解释方差。这种方案被称为极大极小聚合,我们展示了它是如何对非齐次数据工作的。


Teja土耳其人
非线性混合eff ects模型置信区间方法与预测区间方法的比较 卢卡斯迈耶 2015年6月,
文摘:在本研究中,我们旨在评估单水平非线性混合效应模型中各种方法的置信度和预测区间的性能。评估基于13个非线性函数的覆盖率模拟样本。

自举置信区间是由参数、非参数和案例重采样数据集构造的。此外,比较中还包括区间函数的置信区间和Wald置信区间。所有方法的性能进行了所有三类参数:固定效应,方差协方差分量和组内标准差。最后,通过经验地调整t统计量的自由度来改进Wald置信区间。一般来说,模拟支持非自举方法。

预测区间方法基于Wald检验,分别针对观察组和未观察组推导。预测误差推导的方差基于预测误差的各种线性近似。在与他们的自举变量的两两比较中,没有发现明显的差异。当将其性能与基于自举预测误差分布的预测区间进行比较时,后者显示出更接近真实标称值的覆盖率。
卡洛琳Matthis
基于静息态fMRI数据的自闭症与正常发育受试者分类 玛洛Maathuis
妮可Wenderoth
Pegah Kassraian Fard
4月- 2015
文摘:在这篇论文中,我们研究了几个分类器来区分自闭症和正常发展的受试者基于静息状态fMRI数据。我们使用来自自闭症脑成像数据交换(ABIDE)数据库的数据,该数据库包括1112名受试者的功能磁共振成像扫描。首先,我们实现了由Anderson等人设计的LOO (Leave-One-Out)分类器,其准确率达到60%。接下来,我们在数据上运行各种常规分类器,并将其预测性能与LOO分类器进行比较。大多数被检查的分类器的性能至少与LOO分类器一样好;一种灵活的判别分析公式达到76%的准确度。在最后一步中,我们试图将特定于主题的不确定性附加到分类中。基于Fraley和Raftery[18]的工作,用判别分析的灵活公式的后验分布来模拟这些不确定性。在一个简短的模拟研究中,我们说明了估计不确定性的信息价值,假设分布假设是有效的。然后,利用数据对该不确定性模型进行了评估,得到了满意的结果。
茱莉亚Brandenberg
全球浮游植物生物地理学的机制模型和观测统计分析 尼科莱Meinshausen 4月- 2015
文摘:经过五个月的紧张工作,我很自豪地提交了我的硕士论文。我要感谢我的导师Meike Vogt博士一直以来的支持,她的可靠和激励,并祝贺她的宝宝,这是这段时间的亮点之一。除了许多富有成效的主题讨论,我还喜欢和她聊一些与马有关的跑题话题。特别感谢我的导师Nicolai Meinshausen教授,他的支持是有能力的、耐心的和坚定的。在几次会议中,我加深了对统计学的理解,他解决问题的多面手激励我尝试不同的技巧。我要感谢尼古拉斯·格鲁伯教授博士的建议,感谢他在过去的几个月里让我在他的小组里。Thomas Froelicher博士支持我对结果的解释,在Meikes不在的时候,他是我的联系人。Charlotte Laufkoetter博士和Chantal Swan博士为我提供了相关的数据和信息,为这项工作做出了贡献。最后,我要感谢环境物理组的所有同事,感谢他们的建议和贡献,特别是让我很高兴回想起这次会议。
在这一点上,我想提到我的父母,芭芭拉和安德烈亚斯·布兰登伯格,并感谢他们在过去几年里无条件的支持。他们对我的爱和信任极大地成就了我所有的成就,使我成为今天的我。谢谢你!
索尼娅Gassner
无弓无环路径图模型的拟合与学习 玛洛Maathuis
Preetam Nandy Christopher Nowzohour
3月- 2015
文摘:我们考虑从观测数据中学习因果结构的问题,当数据是由线性结构方程模型生成时。假设模型的路径图是无循环的,误差变量是不相关的,可以应用搜索和评分技术来了解底层结构。然而,不相关误差的假设往往限制太大。在这篇论文中,我们考虑了用于结构学习的线性结构方程模型的一个更一般的子类,其中误差的相关性是允许的,除非相应的随机变量是直接的因果关系。这些模型称为无弓无环路径图(BAP)模型。BAP模型几乎在任何地方都是可识别的,这对于具有任意相关模式的线性结构方程模型通常是不保证的。首先,我们考虑了两种估计BAP模型参数的方法。一个是BAP模型可辨识性的证明,并在本文中实现。另一个是最大似然估计的迭代部分最大化算法,其实现已经可用。接下来,我们在结构学习的贪婪搜索算法中使用这两种拟合方法,对BAP模型进行重复拟合和评分,并选择得分最高的模型。 Finally, we evaluate the performance of these methods in a small simulation study.
卡罗莱纳大音乐家
时间序列数据因果推断的两种方法 玛洛Maathuis 3月- 2015
文摘:在这篇硕士论文中,研究了时间序列数据的因果推断的两种方法。第一个是针对非线性确定性系统,第二个是针对线性随机系统。对这两种方法都给出了理论基础,并对算法进行了详细的分析和描述。应用到真实数据也显示和各种模拟运行,以调查在不同情况下的算法的性能。
Kari Kolbeinsson
职业足球比赛结果预测模型选择 马库斯·卡利什 3月- 2015
文摘:本论文的主题是对全球顶级联赛中职业足球比赛的结果进行建模和预测。为此目的,采用了许多统计学习方法,模型适合公开可用的数据。在从相关网站收集了简单的数据后,构建了许多变量,以进一步捕捉每个团队的相对实力。论文的第二章致力于解释由这些变量构建的数据集以及它们与响应变量的关系。统计学习从第三章开始,通过将分类模型拟合到数据的训练子集。对于这些模型,响应变量是分类的,有三个值,一方获胜,另一方平局。所考虑的模型是线性和二次判别分析,k近邻,随机森林,增强分类树和支持向量机。对于每个模型,使用误分类率和校准图的估计来分析对训练集的拟合。第四章探讨了回归模型在这项任务中的使用。现在的反应变量要么是每支球队的进球数,要么是净胜球。 Models fit to the goal difference of each team are then combined for one unified prediction of the goal difference. The models tried for this task are generalized linear models, random forest and boosted regression trees. Prediction accuracies of the best performing models in these two chapters are the subject of the fifth and final results chapter. The goal count estimations of the regression models are translated into the same categorical results as were modelled by the classification models for comparison between all methods. The best performing model was found to be the boosted classification trees with a prediction accuracy of 50.5%.
林朱
医学研究中的信心曲线 里昂哈举行
马库斯·卡利什
3月- 2015
文摘:本文简要回顾了置信分布的发展。它介绍了置信分布、置信密度和置信曲线的现代定义以及基于置信分布的点估计。然后分别给出了无妨害参数和有妨害参数情况下不同的置信曲线构造方法。关键方法和基于偏差的方法分别适用于有妨害参数和无妨害参数两种情况。半校正方法应用于离散数据。模拟或自举方法应用于有妨害参数的情况。我们以指数分布、二项分布、威布尔分布、伽玛分布和两个二项的比较为例,研究每种方法的差异。
安妮塔·考夫曼
犯罪的联系 雅各布·德·佐特
玛洛Maathuis
3月- 2015
文摘:犯罪关联(Crime Linkage)研究的是几起犯罪之间的相似性导致同一罪犯被处决的情况。由于它们之间的联系,单个案件的证据与整个犯罪集团相关。在给出贝叶斯网络主题的简短介绍之后,我们将演示如何使用贝叶斯网络来建模犯罪关联设置。在接下来的步骤中,对两篇有关这一主题的研究论文进行了回顾。为了更好地理解,我们详细地概述了最重要的部分。此外,重点论文只提供了少数犯罪的例子,因为复杂性随着所考虑的犯罪数量呈指数级增长。我们的目标是通过提出简化贝叶斯网络的改编来避免复杂性的快速增加。此外,我们将不同罪犯的数量限制为m < n,其中n是所考虑的犯罪数量,因为在犯罪关联设置中,罪犯的数量不太可能与犯罪数量相同。其结果是减少了罪犯配置的数量,从而简化了具有大量犯罪的设置的计算。我们提出了两种可能性来为m找到一个合理的值:我们遇到的问题是,对于n个犯罪,最多有m个不同的罪犯,我们的适应函数效率不高,因此不能用于更多数量的犯罪。 Nonetheless, comparing the two different approaches for small numbers of crimes we get very similar results. Consequently, the second approach is, at least for small numbers of crimes, faster and thus better suited for determining the number m of different offenders which have to be taken into consideration. In order to maintain its relevance also for larger number of crimes we furthermore propose a possible extension of the second approach.
盛陈
随机投影在聚类分类和回归中的应用 马库斯·卡利什 2015年2月,
文摘:本文研究了随机投影(相对较新的降维技术之一)在应用于聚类、分类和回归领域时的性能,通过重现或测试boutis和Zouzias(2010)、Paul和boutis(2013)和Kaban(2014)三篇论文中的结果,分别来自三个领域中的一个。首先对Johnson-Lindenstrauss引理及其推广作了回顾,引理是随机投影的理论基础。在早期亚高斯矩阵和稀疏矩阵的基础上,提出了新的基于傅里叶变换的随机矩阵,以提高计算速度。其次,再现了基于随机投影的K-means (boutis and Zouzias, 2010)中的实验。结果表明,当嵌入空间的基数较大时,基于rp的K-means在误分类率方面与原始数据的K-means相当。对比RP、PCA和LS,发现PCA在误分类率方面优于RP,但RP所需的时间仅为PCA的19%。第三,为了分类,在基于rp的支持向量机(Paul and boutis, 2013)中进行部分实验。计算结果表明,基于rp的SVM在原始空间中的误分类率并不明显大于SVM。然而,γ边缘明显变小。在回归方面,Kaban(2014)提出了嵌入空间中OLS估计量的过剩风险的上界,并证明了随机投影适用于更大的一组矩阵,其项均值为0,单位方差,对称分布,四阶矩有限。论文的最后部分通过实验验证了这些假设在随机矩阵上成立的必要性,并发现每个假设都可以在不打破边界的情况下被放松。
伊安·加布里埃尔·布库尔
最大祖先图的结构干涉距离 马库斯·卡利什 2015年1月-
文摘:在因果推断的过程中,我们感兴趣的是从观察数据中准确地学习数据生成过程的因果结构,从而正确预测干预对变量的影响。为了评估估计方法的输出有多准确,我们希望能够比较因果结构的因果推断陈述。Peters和Bühlmann提出了结构干预距离作为dag之间的预度量,为该问题提供了部分解决方案。然而,在混杂因素存在的情况下,因果DAG可能无法预测某些干预效果。在本文中,我们试图在一个更现实的环境中模拟Peters和Bühlmann的结果,在这里我们只观察到所有相关变量的一部分。我们提出了一个新的预度量,最大祖先图的结构干涉距离(SIDM)。MAG是一种因果结构,与DAG不同,它在边缘化下是封闭的,并且可以包含潜在混杂因素存在的不确定性。SIDM允许我们在没有选择偏差的假设下,根据两个mag的因果推理能力进行比较和对比。SIDM在方法上与SID一致,并为其他度量提供有价值的附加信息。

2014

学生 标题 顾问(s) 日期
卢卡斯韦伯
检测差异基因剪接的模型选择技术 马克。罗宾逊
彼得Buhlmann
2014年9月-
文摘:在基因表达的信使RNA (mRNA)转录阶段的选择性剪接可以从单个基因产生大量可能的mRNA异构体。这些mRNA异构体可以在随后的蛋白质翻译过程中产生功能不同的蛋白质,解释了蛋白质在生物(如人类)中的巨大多样性。差异剪接实验旨在使用微阵列或RNA测序(RNA-seq)技术来检测各组生物样本之间剪接模式的差异,例如比较患病和健康样本,或处理和未处理的样本。在这篇论文中,我们测试了模型选择技术是否可以用于提高现有统计方法的性能,以检测RNA-seq数据集中的差异基因剪接。新方法是成功的,并已在GitHub上实现为R包。
卢卡斯劳动部
控制错误发现率的套索及修正 莎拉·范德吉尔
本杰明Stucky
8月- 2014
文摘:如今,一个巨大的焦点集中在高维数据集上,其中预测器的数量$p$远远大于观察量$n$。一个例子是检测哪些基因负责我们身体的特定生物功能。由于测量一些微阵列数据的成本非常高,我们通常最多只有几百个观察结果,但数千个可能的基因可以控制我们想要研究的实例。因为我们的预测变量比观测值多很多,所以我们无法计算出唯一解。cite{Tibshirani96}引入了一个叫做Lasso的方法,它可以精确地处理这个问题,并将一些变量精确地设置为零。换句话说,Lasso可以从我们的模型中禁止一些预测器。然而,Lasso有时会选择很多预测变量,这些变量实际上并不对观察到的过程负责。因此,错误发现率(FDR),定义为不相关的预测变量在所有选定变量中的预期比例,在一些模型中甚至不受控制。在本文中,我们将重点研究一种新的过程,该过程可以更好地控制FDR,但不会禁止太多与该过程相关的预测变量,即我们不会损失太多能量。本文主要基于cite{Candes13}(以及一个更新版本cite{Candes2})介绍的程序,称为SLOPE。 We analyze the improvement of SLOPE in high dimensional examples for the linear model with Gaussian and orthogonal design matrices. In the end, we adapt the idea of SLOPE to the group Lasso, which is very useful if we can group the predictor variables and select or ban a whole group of regression variables. We present an extension of the group Lasso named SIPE and test its skills in sparse scenarios via simulation study.
汉斯·吐根堡山羊
重复测量和事件时间数据的联合建模,应用于来自IeDEA-SA的数据 玛洛Maathuis
马提亚症
Klea Panavidou
8月- 2014
文摘:抗逆转录病毒治疗开始后,艾滋病毒阳性患者的低CD4计数通常恢复到正常水平。通过反复测量CD4细胞,可以在一组离散的时间内了解患者的CD4细胞轨迹。采用不同的方法来模拟CD4计数以获得连续的轨迹。如果抗逆转录病毒疗法不再起作用,CD4细胞将重新开始衰退。这种治疗失败,或者特别是它发生的时间,是由生存模型来模拟的。在这项工作中,CD4的重复测量结果采用具有三种随机效应的非线性混合效应(NLME)模型进行建模。事件时间数据采用对数正态加速失效时间(AFT)模型进行建模。将这两个模型合并为随机效应依赖的联合模型。从广义上讲,这意味着NLME模型的随机效应被用作AFT模型中的连续预测因子。讨论了通过最大似然法估计相关参数的不同方法及其缺陷。 The final model is applied to real data from the International epidemiologic Databases to Evaluate AIDS in sub-Saharan Africa (IeDEA-SA).
Andreas Puccio
两种基于模型的穗排序方法综述 玛洛Maathuis 8月- 2014
文摘:在现代神经科学中,细胞外记录在分析神经元活动中起着重要作用。尽管早期的实验是基于单个电极,但现代设置包括大量通道,同时记录来自多个细胞的数据。在这种情况下,每个电极都将记录附近所有神经元的动作电位,这些电位可见为形状取决于各种因素的尖峰。尖刺排序的问题,简单地说,就是在多电极电压记录中检测这种尖刺的发生,并对其进行分类,即识别相应的神经元。一种广泛使用的方法是所谓的聚类方法,由检测峰值发生的阈值步骤、特征缩减步骤(如PCA)和基于这些特征的分类(“排序”)步骤组成。然而,这种方法有几个缺点,一个重要的缺点是无法处理重叠的尖峰。在介绍了穗排序问题和在这种情况下遇到的数据之后,我们回顾了两种不同的现代穗排序框架,一种是二元追踪(Pillow, Shlens, Chichilnisky, and Simoncelli, 2013),另一种依赖于一种称为连续基追踪的方法(Ekanadham, Tranchina, and Simoncelli, 2014)。这些框架对记录的电压轨迹使用统计模型,不依赖于尖峰串估计的聚类过程。我们在MATLAB中实现了二进制追踪,使用模拟数据对该算法进行了性能评估,并确定了基于模型的spike排序算法的优点和缺点。
劳拉Casalena
高维环境下逆协方差矩阵的统计推断 莎拉·范德吉尔
Jana Jankova
8月- 2014
文摘:这项工作的重点是估计逆协方差矩阵Θ *在高维设置的问题。高维性可以通过允许p作为n的函数增长来反映,但为了保持我们的结果,我们需要p = o(exp(n))。我们将对Θ *提出四种不同的估计方法,并在适当的分布假设以及浓度矩阵Θ *的模型假设下研究它们的渐近性质。特别地,只要有可能,我们将给出各种矩阵范数的收敛速率和证明每个单独元素渐近正态性的状态结果Θ∗ij。因此,我们将构造Θ * ij的渐近置信区间。最后,我们将通过数值模拟来说明理论结果。
法比奥Ghielmetti
航空业结构性定价变化的因果效应估计 彼得Buhlmann
卡尔岛
8月- 2014
文摘:航空业的价格变化每天都在发生,但其收入影响很难衡量。这个问题,即推断定价变化对收入的因果影响,可以用结构方程模型(SEM)和因果图来建模。最近发表的一篇论文(Ernest and Bu hlmann(2014))表明,sem内部的因果关系可以直接从可加性模型中推断出来,即使真正的潜在关系不是可加性的。在介绍了航空公司收益管理的主题和推断因果关系的数学工具之后,最近的结果应用于实际的航空公司数据。在识别出相应的因果图之后,拟合多个可加模型:通过多个级别的数据聚合和不同子集的比较,测试因果效应估计的敏感性。最后,对结果进行了讨论和解释。
李蜀
加性回归在时间序列分析中的因果推理 彼得Buhlmann
Jan欧内斯特
8月- 2014
文摘:因果推断已经从早期的细分发展到一个更加统一和正式的框架,具有从大脑映射到基因调控途径建模的各种应用。在时间序列环境中,因果推理主要围绕格兰杰因果关系展开,忽略了结构方程或图形模型的最新进展。我们使用前者来探索从观测时间序列数据中基于干预的因果推断的潜力。从Ernest和Bühlmann(2014)最近的结果中获得灵感,我们提出了一种推断AR(p)模型中的因果效应的新方法:Addtime,时间序列分析中的加性回归的简称。我们的方法在理论上是合理的,即使对于非线性或非加性AR(p)模型也是如此,并且计算效率高,每次干预平均需要0.5s,并实现潜在的高维应用。从经验上看,Addtime能够在模拟数据和真实数据中恢复真实效果。在(非线性)时间序列范围内,干预措施的效果在很大程度上未被探索。我们的方法可以被视为单变量时间序列的安全基准,并在没有进一步约束的情况下推广到多变量情况。
安雅Franceschetti
非寿险定价中广义线性模型的替代方案 卢卡斯迈耶
Christoph布塞尔
2014年7月
文摘:
克里斯蒂娜·海因策
高维大尺度线性回归中的随机投影 尼科莱Meinshausen 2014年7月
文摘:我们研究了Johnson-Lindenstrauss随机投影在不同回归设置中的使用。首先,我们研究了高维情况,其中变量p的数量大大超过了观测数据n的数量。具体来说,我们考虑了所谓的压缩最小二乘回归(CLSR)。CLSR在对这个压缩数据集应用普通最小二乘回归之前,通过随机投影降低数据的维数。我们对CLSR与其他广泛使用的高维最小二乘估计方法(如岭回归、主成分和Lasso)的预测性能进行了实证比较。我们的结果表明,将CLSR的预测在一些独立的随机预测上平均的聚合方案可以大大提高预测的准确性。CLSR的这种扩展在各种真实数据集上的表现与竞争方法类似。随后,我们实验了两个变量重要性度量,其中一个利用了这样一个事实,即省略原始高维数据集中的变量不一定要改变投影维数。这允许在压缩空间中直接比较估计的回归系数。第二个统计量是基于均方预测误差的变化。对于这两种重要性度量,我们探讨了是否可以正确识别高度相关变量的集群的重要性。 We find that the procedures work reasonably well for synthetic data sets with large signal-to-noise ratios (SNRs) and no inter-cluster correlations. However, the randomness in the projection matrix makes detection difficult for data sets with low SNRs. Also, different correlation structures between clusters pose significant challenges. Lastly, we look at the large-scale setting where both p and n are very large, and possibly p > n. We develop a distributed algorithm, LOCO, for large-scale ridge regression. Specifically, LOCO randomly assigns variables to different processing units. The dependencies between variables are preserved using random projections of those variables that were assigned to the respective remaining workers. Importantly, the communication costs of LOCO are very low. In the fixed design setting, we show that the difference between the estimates returned by LOCO and the exact ridge regression solution is bounded. Experimentally, LOCO obtains significant speedups as well as good predictive accuracy. Notably LOCO is able to solve a regression problem with 5 billion non-zeros, distributed across 128 workers, in 25 seconds.
塞布丽娜多恩
局部多项式匹配与带宽选择的考虑 莎拉·范德吉尔 2014年7月
文摘:这篇硕士论文考虑了局部多项式匹配,这是计量经济学中估计反事实结果和平均治疗效果的一种流行方法。我们讨论了条件独立下反事实期望的识别,给出了局部多项式匹配估计量的选定性质的概述,并应用这些性质计算了一般阶逼近多项式的相应两步估计量的均方误差。最后,这使我们能够推导并实现一个可行的均方误差准则,可以在数值上最小化,并在NSW和PSID数据的实证应用中提供其合理性能的一些证据。
奥利弗Bachem
dp -均值聚类问题的核心集 安德烈亚斯•克劳斯
马库斯·卡利什
2014年7月
文摘:
瓦伦蒂娜Lapteva
结构学习的不同稳定性选择模型 尼科莱Meinshausen 2014年7月
文摘:分析学、高性能计算、机器学习和数据库的最新发展使得收集和处理网络规模的数据集成为可能。不仅样本数量急剧增加,而且观察和评估的特征数量也急剧增加。反过来,大数据分析需要独特的专家,他们需要完全理解数据的所有属性以及它们之间的联系,如果可能的话,这可能是昂贵的。这一切都以最尖锐的方式带来了自动结构发现的问题。的task of structure learning attracts a lot of attention, with many new algorithms being proposed in recent years. However, all of them highly depend on the choice of a regularization parameter. To deal with this problem, Stability selection technique cite{stability_selection} was proposed. Original formulation of Stability Selection approach limits the maximum number of false positive variables selected.In this thesis we explore the problem of learning the structure in an undirected Gaussian graphical model. We extensively explore the properties of Stability Selection when applied in combination with different structure estimators, such as Graphical LASSO cite{glasso}, CLIME cite{clime} and TIGER cite{tiger}.We also propose and explore, for the first time, a variety of different models that are based on Stability Selection approach, but rely on different types of assumptions or incorporate different types of constraints.For example, we show how to incorporate the prior knowledge about the sparsity pattern, topological constraints, such as connectivity or the maximum number of edges adjacent to every node.We also explore assumptions based on the properties of an estimator, such as homogeneous type I and type II discrepancies, or the underlying logistic model as a function from an estimator output and the output of the method.We show that in some cases, either when the prior assumptions hold, or when the graphical model structure is dense, the proposed models can serve as a better regularizer for Stability Selection than the original formulation.
Gian Andrea Thanei
回归中的降维技术 尼科莱Meinshausen 2014年7月
文摘:
马克西米连维拉
随机损失储备模型的统计验证 卢卡斯迈耶
Jurg Schelldorfer
2014年7月
文摘:非寿险的理赔准备是对未偿损失负债的理赔准备进行预测。确定预测开采权储量有多种方法和模型。然而,为了量化完全径流风险(长期观点)或一年风险(短期观点)的总预测不确定性,需要相应的随机模型。在实践中,人们通常比较几个随机模型的结果,以确定适当的债权储备及其不确定性。从统计学的角度来看,所有这些随机模型都需要对数据进行彻底的考虑,并检查模型假设是否满足。在这篇论文中,我们将通过关注四个不同的模型来研究这些问题:分布自由链梯模型,累积对数正态模型,Bornhuetter-Ferguson模型和广义线性模型。我们提出了已知的统计工具和一些新开发的数据图和模型检验图形,以支持适当的随机模型的决策。用不同的数值例子说明了模型检验的过程。考虑了公共三角形和AXA三角形,结论一致。因此,为了保密起见,我们只提供公开数据的结果。
科林·斯托金
无信息先验高斯混合模型的贝叶斯推理 彼得Buhlmann 2014年5月-
文摘:本文讨论混合高斯分布的贝叶斯推断。提出了一种混合模型的新公式,该公式包含了每个高斯分量总是分配最小数据点的先验约束。这使得非信息性的不适当先验(如Jeffreys先验)可以用于组件参数。我们演示了在为标准高斯混合模型指定先验时所涉及的困难,并展示了如何使用我们的新模型来克服这些困难。给出了基于该模型的后验抽样的MCMC方法。
Alexandra Ioana Negrut
瑞士的交通安全 汉斯R. Künsch 2014年5月-
文摘:2012年,瑞士道路上发生了5万多起车祸。有了手头的新数据,苏黎世联邦理工学院交通工程系对找出决定车祸严重程度的因素很感兴趣。此外,他们还想知道是什么决定了车祸的原因和类型。为了回答这第一组问题,我们使用了参数法和非参数法,然后从错误分类误差和变量排序方面进行了比较。结果证实,为了预测事故的严重程度,人们还需要有关未发生事件的信息。在论文的第二部分,对瑞士五条高速公路的严重碰撞频率进行了调查。结果表明,日平均风量(DTV)越高,严重事故数量越高。
亚尼克·特兰特
随机森林的股票投资组合选择 彼得Buhlmann
托尔斯滕母鸡
2014年5月-
文摘:机器学习算法在选股中的应用通常集中在技术参数和有限的基本公司比率集。在本研究中,使用1989-2013年美国公司的完整资产负债表、损益表和现金流量表信息作为模型输入。缺失值的数量和分布不均匀是处理这些数据的关键特征和难点。我提出了一种结构化的方法来准备这个具有挑战性的数据集的统计学习方法。基础数据是由广泛的技术指标补充的。在这项工作中,随机森林的预测能力在1989年至2006年的校准期间进行了探索,使用这个巨大的数据集进行股票收益预测。我的结果表明,对于“极端”随机森林参数化,可以获得关于排名回报的小但显著的预测能力。经过校准的随机森林参数化提出了关于数据集性质的有趣问题。在随机森林预测的基础上,提出了简单的投资策略。他们在2006- 2013年期间的样本外回溯测试中表现出显著的优异表现。 The risk adjusted performance measures are on level with the latest stock selection criteria in the finance literature. Throughout my work I illustrate the challenging peculiarities of working with equity data and propose solutions originating both from finance and mathematics.
安妮特Aigner
脊髓损伤患者下肢功能评估的统计分析 玛洛Maathuis
阿明Curt
洛伦佐Tanadini
2014年5月-
文摘:基于参与欧洲多中心脊髓损伤研究的脊髓损伤患者的纵向数据,本论文的重点在于下肢功能的评估。最初,这些性能指标能够捕捉患者行走能力的变化,并评估它们之间的关系。基于这些结果,确定了两种措施,随后探索在这两种结果措施中建模患者康复的可能性。最后,研究了预测患者恢复行走能力的程度的可能性。采用非参数双样本检验、典型相关分析、主成分分析、潜在类因子分析、线性混合效应模型和随机森林等方法,使研究结果最有助于回答各自的研究问题。研究结果表明,目前用于评估下肢表现的评分是平等的,但只适用于某些患者。因此,存在与特定患者组相关的评分亚组。在六项行走测试(6MWT, 10MWT, TUG, SCIM3a, SCIM3b, WISCI)中,6MWT和SCIM3b表现出所需的响应性特征,结果略好,特别是在所有分数的相互依赖性评估方面最一致。对于模型恢复的潜力,即随时间的发展,时间对6MWT的影响呈log-like趋势。另一方面,用SCIM3b测量的恢复有不同的发展,单是时间甚至可能有负面影响。 The results for the prediction of these two outcomes, six months after injury, showed that such an endeavor is very difficult and will therefore have low accuracy if applied to new patients.
克劳德Renaux
为高维选择推理调整的置信区间 彼得Buhlmann 4月- 2014
文摘:对确定统计不确定性的需求不断增长,这在很大程度上是一个未开发的高维数据领域。本文主要研究高维情况下选择推理的置信区间调整问题。选择推理是指在相同的数据基础上选择一些共变量并构造相应的置信区间。这就产生了一种偏差,即选择效应。我们可以通过调整边际置信水平来修正选择效应。我们选择了一些共变量,并将这种调整应用于基于Ridge回归的贝叶斯置信区间和基于去稀疏化Lasso的频率置信区间。此外,我们总结了选择推理理论和用于构建置信区间的方法。在一个真实的数据集上演示了这些方法,并在合成和半合成数据集上进行了大型仿真。提出的基于Ridge回归构建贝叶斯置信区间的三种方法中,有两种只在某些情况下表现良好。此外,我们的仿真表明,虚假覆盖语句率(FCR)准则是可控的,并且基于去稀疏化的Lasso,幂取较高的置信区间值。 Moreover, the implementation of the de-sparsified Lasso can be changed for the purpose of selective inference which results in computations finishing in 1% to 6.5% of the time with only slight changes in the results. The results are useful for settings where selective inference is appropriate and high-dimensional data is present.
Christoph Datwyler
时间序列中的因果关系,FCI算法的时间序列版本及其在分子生物学数据中的应用 玛洛Maathuis 4月- 2014
文摘:在许多其他概念中,格兰杰因果关系已成为推断时间序列中的因果关系的流行。在本工作的第一部分中,我们简要介绍了这个主题,由此我们看到格兰杰因果关系可以用条件正交性或条件独立来表述,并且可以与路径图密切相关,路径图提供了一种方便的方式来可视化感兴趣的因素/变量之间的因果关系。一个称为m-分离的概念为我们提供了一个图形标准来推断路径图中的条件正交关系,我们以一个将m-分离和格兰杰因果关系联系起来的精确声明来结束第一部分。然后,第二部分讨论FCI算法,该算法被设计用于推断变量系统之间的因果关系,其中可能不是所有的变量都被观察到。此外,我们提出了原始的FCI算法的适应时间序列数据的框架。在本论文的最后一部分,我们将FCI算法的时间序列版本应用于分子生物学的数据集,目的是推断感兴趣的因素之间的因果关系,从而更好地理解基因的转录过程是如何工作的。
托马斯•舒尔茨
HAR模型背景下Lasso的聚类方法 彼得Buhlmann
弗朗西斯科·Audrino
4月- 2014
文摘:我们讨论了Lasso的协变量聚类方法,并将其与HAR模型上下文中的标准Lasso进行了比较。我们分析了这些模型在历史波动率数据上的预测误差的差异,发现聚类方法的误差往往略大。随后,我们使用相同的数据来比较所考虑模型的所选系数的稳定性,我们观察到聚类方法获得了比标准Lasso更好的结果。最后,我们进行了数据模拟分析,以研究合成HAR设置中的稳定性问题,并再次得出结论,由聚类方法选择的系数似乎更稳定。
欢刘
将先验知识纳入CPDAGs 玛洛Maathuis 3月- 2014
文摘:因果模型可以表示为图模型,每个节点表示一个变量,每条边表示一个因果关系。一个完整的部分有向无环图(CPDAG)就是这样一个没有隐变量的因果模型,并且每个无向方向都是可能的。因果先验知识表现为存在或不存在从一个变量到另一个变量的有向路径。本文提出了一种将一组因果先验知识整合到CPDAG中的算法。它利用CPDAG的弦性将无向图分离为连通子图,然后借助Meek的规则和定理来合并所有的先验知识。本文还证明了正先验知识和负先验知识合并的正确性。最后,通过仿真对算法的性能进行了测试和比较。
拉娜Colakovic
利用随机蕨类进行分类 尼科莱Meinshausen 3月- 2014
文摘:随机蕨类是最近由Özuysal, Fua, Calonder和Lepetit(2010)介绍的一种监督学习分类算法,作为随机森林(Breiman(2001))的更简单和更快的替代方案,在图像识别中有特定的应用。与树木相比,蕨类植物没有等级结构,聚集是通过乘法而不是平均来完成的。此外,它们依赖于完全随机的特征选择以及分割点。这篇硕士论文的目的是研究随机蕨类植物的一般性质,并将它们与随机森林进行比较。我们想看看在什么情况下,随机蕨类植物的表现是否与随机森林相当。我们在R语言中实现了随机蕨类算法,并利用模拟和真实数据集对随机蕨类的性质进行了更详细的研究。
Christoph Kovacs
二元网络中关系分类的半监督标签传播模型:理论、应用与扩展 玛洛Maathuis
卢卡斯迈耶
2014年2月,
文摘:如果一个数据集不仅包含实例特征,而且还展示了元素之间的关系结构,那么它可以表示为一个由实例定义的节点和由关系定义的链接的网络。数据分析可以在统计关系学习(SRL)范式下按照这样的结构进行。它的两个基本基石,集体分类和集体推断,可以通过半监督标签传播(SSLP)算法来实现,该算法允许标签信息通过网络传播和更新,以达到对未标记节点的类归属预测。为此,将谐波函数应用于高斯随机场并进行相应的调整,形成了带松弛标记的加权投票关系邻居分类器(wvRNRL)。将这种方法扩展到支持社会特征,从网络的拓扑中提取,结果是社会上下文关系邻居(SCRN)分类器。此外,还提出并讨论了MultiRankWalk (MRW)分类器,该分类器使用了随机行走与重启的思想。这些不同的半监督分类模型被应用于九个二元网络,并使用重复网络交叉验证(rNCV)方案对其预测性能进行了各种精度测量的评估。本文概述了放松某些模型限制和扩大其适用性的想法,以及未标记节点重要性(MIUN统计量)的建议度量。为了对所获得的结果进行充分的可视化,提出了一种新的整体可视化方法——circo - clustogram。本文最后讨论了半监督标签传播的优缺点及其适用性。
Ambra Toletti
基于树的马尔可夫随机场参数估计、推断和去噪方法 莎拉·范德吉尔 2014年2月,
文摘:在过去的几十年里,统计学家和计算机科学家对变分方法的关注大大增加。虽然存储描述复杂系统的大量多元数据(例如在自然科学、社会学等)已经变得(计算上)便宜,但对这些信息进行详细阐述,以获得基础统计模型的参数估计,或进行推断或去噪,一般来说仍然是不可实现的。事实上,如果底层模型的复杂性/规模足够大,经典的(精确的)方法(例如通过迭代比例拟合计算最大似然估计)需要大量的时间来解决这些问题。马尔可夫随机场,由于其图形和指数族的良好表示而被广泛使用,也不能幸免于这个问题。在这种情况下,可以将推断和参数估计转换为与指数表示相关的约束优化问题。不幸的是,这种转换并没有在可行性方面提供任何改进,因为通常不可能以显式的方式编写目标函数,甚至约束的数量也令人望而却步。通过适当地放松约束和近似目标函数,可以获得计算成本更低的(近似)解。在这项工作中,松弛是通过考虑局部一致的边缘分布的所有组合来实现的,目标函数是基于底层图的生成树的Bethe熵近似的凸组合来逼近的。Wainwright(2006)证明了用这种方法得到的参数估计是渐近正态的,但不收敛于真参数。然而,如果这些估计用于推理或去噪等目的,其性能与精确方法之一相当。 In this work some empirical evidence confirming these properties for an Ising model on a grid graph was produced and general definitions and results about graphical models and variational methods were resumed.
Tobia Fasciati
半监督学习 马库斯·卡利什 2014年2月,
文摘:半监督学习与传统学习方法(如监督学习和无监督学习)相比的潜在优势吸引了许多研究者。目标是通过利用数据的几何位置,从有标记和未标记的观测数据中学习分类器。目的是Master Thesis is to give an overview about SSL and study two different methods, Transductive Support Vector Machine and Anchor Graph Regularization. Finally, both approaches are tested on selected datasets.
大卫·伯吉斯
树结构的因果加性模型:结构搜索和因果效应 彼得Buhlmann
乔纳斯彼得斯
2014年2月,
文摘:从数据中得出因果关系的结论是许多科学领域的中心目标。在本文中,我们研究了有限结构方程模型的一个特例。除了无环性和无隐藏混杂因素的常见假设外,我们还假设了加性高斯噪声、非线性函数和由具有树结构的有向无环图(DAG)表示的因果结构。给定来自这样一个具有树结构的因果相加模型(CAMtree)的数据,我们估计潜在的树结构,并给出变量对其他变量的因果影响的特征。这种受限模型导致了一些简化。结构的可识别性由Peters等人(2013)的结果保证。我们提出了一种有效地找到所有树之间因果结构的最大似然估计量的方法。由于我们的方法是基于分布的局部属性,因此它可以不受约束地扩展到高维设置。此外,我们研究了如何描述一个变量对其他变量的因果影响。最大平均差异用于量化潜在原因变化时影响变量分布的变化。 Based on our estimate for the structure, we present a procedure which, given only observational data, predicts the strongest causal effects. All methods are implemented in R and we give experimental results for synthetic data and one set of real high-dimensional data.
Emilija Perkovic
FCI+算法 马库斯·卡利什 2014年2月,
文摘:本文的主要重点是理解和实现在“学习稀疏因果模型不是NP-hard”Claassen, Mooij和Heskes (2013a)中所描述的FCI+算法。为了理解这种算法是如何工作的,简要介绍了因果关系和处理因果数据的一些方法。首先,我们处理向读者介绍因果系统的术语和图形表示。然后,我们将重点研究不存在隐藏变量(PC)时处理因果系统数据的方法,与存在隐藏变量(FCI, FCI+)时的方法相反。特别关注FCI+算法背后的理论。最后对FCI和FCI+进行了精度和计算时间的比较,并得出结论。

线性混合效应模型的不同置信区间方法比较 马丁Maechler 2014年2月,
文摘:本文对线性混合效应模型中固定效应参数的不同置信区间方法进行了仿真分析。采用lme4包中的lmer函数和nlme包中的lme函数两个函数对线性混合效应模型进行拟合。本文对lme4、nlme、lmerTest和boot包中的6种不同置信区间方法进行了研究和比较。我们得出结论,lmer和lme函数在拟合lme模型时都有相似的结果,但偏差随着固定效应数量的增加而增加。对于置信区间方法,一个普遍的发现是大多数区间太小。但在所有方法中,lmerTest方法性能最好。该方法的置信区间MP在所有方法中最低,其覆盖率最接近于名义率(α)。lmerTest的缺点是它有时会返回没有意义的错误或间隔(例如。并且它的运行速度明显慢于lme4-Wald和nlme-interval。Lme4-Wald和nlme-interval都非常稳定和快速,但是间隔几乎总是太小。 Profile method is not better than lmerTest, and bootstrap-type methods perform worst. Also, we found that sometimes poor performance of confidence intervals might indicating overfitting in model design.

2013

学生 标题 顾问(s) 日期
Vineet汉
高维统计中的分组回归 莎拉·范德吉尔 2013年10月,
文摘:这项工作致力于稀疏线性模型中的聚类估计,其中参数高度相关并且远远超过观测值。从文献中检查了三种不同的组套索技术。经过一定的降维,发现它们与加权套索具有等价性。他们对参数施加的先验被用来表明他们对哪一类问题最有效。在此基础上,提出了一种基于主成分分析的降维估计器。随后进行了实证实验,以证实理论结果。
瓦西里•Tolkachev
扩散过程的参数估计 汉斯·鲁道夫Künsch 2013年9月-
文摘:本文研究了基于离散抽样观测的随机微分方程参数标定的估计函数方法。由于似然函数在离散情况下不以封闭形式已知,我们必须依赖于分数函数的近似,即估计函数,然后将其根作为估计量。结果表明,估计函数的根具有许多显著的渐近性质。首先,概述了一些主要的严格规律性假设,以支持主要结果。然后我们考虑一个主要结果:当过程的条件矩以封闭形式已知时,估计函数的根是渐近正态的。其次,讨论了一个更一般的定理,即在估计函数中使用样本矩代替条件矩。在合适的逼近方案下,根仍然是渐近正态的,但有偏差和较大的方差。最后,考虑几何布朗运动和Ornstein-Uhlenbeck过程的漂移和扩散系数的估计,由蒙特卡罗模拟生成。强调了各种参数值的重要问题,以及使用估计函数的优点和困难。
莎拉•格林
皮肤癌的监督和半监督分类 莎拉·范德吉尔
马库斯·卡利什
克里斯Snijders
8月- 2013
文摘:随着皮肤癌发病率的持续增长,皮肤科医生将被大量寻求皮肤癌诊断的患者所淹没。荷兰正在解决这个问题,一家医院正在开发逻辑回归模型,可以帮助培训护士诊断皮肤癌,并且可以通过移动应用程序访问。目前的工作研究是否可以改进或超越逻辑回归模型。一项小型模拟研究探索了通过整合将使用该应用程序的患者和未接受诊断的患者的信息来改进模型的未来潜力。逻辑回归被证明是一个有竞争力的模型。一组较小的预测因子被确定为模型实际表现良好的预测因子。虽然合并来自未诊断病例的信息并没有提高性能,但也没有使其恶化,并且值得继续研究未诊断病例对模型性能的价值。
Lennart Schiffmann
测量苏黎世的MFD:识别和评估有效放置探测器的策略 玛洛Maathuis
马库斯·卡利什
8月- 2013
文摘:宏观基本图(MFD)是近年来在交通研究界建立起来的。它可以描述城市中同质拥堵区域的整体交通状态。为了促进基于mfd的交通控制系统在现实世界中的实现,我们正在制定固定监控资源(例如环路检测器)的放置策略。这些有效放置探测器的策略是基于街道属性的单变量和双变量分布,如道路长度、车道数量和交通灯的出现。我们发现,使用包括街道长度在内的二元分布可以产生良好的结果。我们的研究是基于在VISSIM中实现的苏黎世市的微观模拟。
里特•Christoffel-Totzke
时间序列分析在电力市场数据中的应用 彼得Buhlmann 8月- 2013
文摘:本文的研究对象是Base-13期货合约的每日收盘价。我们的目标是详细阐述它们的特征,并了解哪些影响决定了它们的趋势。通过适当的方法和程序,从众多变量中选择了最重要的变量,并建立了五个不同的模型来描述Base-13。这些模型同时试图精确地提前一步预测未来的收盘价。简短的介绍为读者提供了关于电力市场功能原理的必要的基本知识,以便能够理解分析的结果,并理解其解释。在下一节中,对收盘价的描述性时间序列分析表明,波动率在特定时期内发生了重大变化,这对模型的发展提出了挑战。此外,在同一节中,在Base-13的情况下,关于金融合约价格的独立和偶然变化,随机游走假设无法得到证实。下一节将重点介绍GLM模型。基于GLM,我们开发了一个模型,其中包含了最重要的收盘价格指标:煤炭API2-13、EUA-13、天然气TTF-13、CLDS和美元/欧元汇率。使用GLM的预测模型产生了非常准确的性能,趋势精度为81%。 A strong linear correlation has appeared between Base-13 and coal, EUA, gas and the exchange rates having the major quantifiable impact what is shown in a graphical analysis of these effects. Thereafter, the impact analysis has been intensified. In the course of analyzing, it has produced some interesting insights on the reaction of the closing prices concerning the changing volatility of the input variables. All variables of the final GLM model are highly significant in the GAM as well and show identical features relating to their impact on the Base-13. The forecasting model with GAM reaches accuracy in trend of 78%. The research documented in the next section has been able to confirm four important variables of the final model by applying MARS: coal, EUA, CLDS und the USD/EUR exchange rate. The effect of those most important variables likewise is almost linear according to the graphical analysis. The forecasting model with MARS reaches accuracy in trend of 78%. Furthermore, another forecasting model has been developed with NNET which captures non-linear effects to an acceptable extent. The relating effect plot illustrates this non-linearity quite obviously, especially high for gas, the exchange rates, coal and CLSS. The forecasting model with NNET demonstrates accuracy in trend of 74%. The following section illustrates that the results with PPR confirm the outcome to a considerable extent provided with GLM for the final model. The forecasting model based on PPR shows a precision in trend of 75%. Various theoretical findings relating to the impact on the closing prices of Base-13 as well as such based on applied experience have been confirmed based on empirical data. The straightforward linear model has proven very accurate as well as comprehensible thanks to its mathematical form. Furthermore, it has been demonstrated that complex non-linear models bear no advantage due to the strong correlation of the most important variables and the Base-13. It can therefore be concluded that the goals set for this thesis have been achieved by providing substantial insight in theoretical and applied aspects of statistical models relating to forecasting of futures closing prices.
Andrea Remo Riva
高维统计中变量选择的凸优化 莎拉·范德吉尔 2013年7月
文摘:哪些基因有利于或反对潜在致命疾病的形成,如前列腺癌、克罗恩病或亨廷顿病?我们周围的世界正越来越多地面临这样的情况:对收集到的大量数据进行解释,目的是能够对导致特定现象的原因提出具体的假设。因此,现代统计学试图开发新的工具来有效地处理这类问题。这篇硕士论文将首先刷新与Tibshirani在1996年介绍的LASSO(最小绝对收缩和选择算子)和凸优化基础相关的基本思想。接下来的研究将侧重于通过适当的非光滑规范正则化经验风险来寻找最优解。由于所提出的算法具有良好的收敛速度,因此从计算的角度来看,最近的方法能够以多样化的方式有效地解决这些优化问题。稍后,我们将有兴趣探索在解中引入结构化稀疏性的可能性,以便能够大大提高回归系数的质量。为此目的,我们将引入新的变分规范,将具有正分量的辅助向量的隶属关系以归纳的方式施加到我们所选择的行列式的集合中。最后,在图像处理和医学研究领域的一些应用将具体说明如何呼吁多维统计今天帮助人类。
Nilkanth库马尔
运用稳健方法对瑞士流动行为的实证分析 沃纳Stahel
马西莫Filippini
2013年5月-
文摘:在这篇论文中,瑞士家庭对个性化出行的需求使用车辆库存参数,地理和社会经济特征进行了研究。为此,本文采用了2010年(2011年)瑞士最新旅游微观人口普查的家庭层面数据。除了OLS方法,使用mm估计器的稳健方法已被纳入以获得改进的模型拟合和估计结果。很少相关的需求问题,如比较单车家庭和多车家庭的汽车使用情况。
估计的系数大多有预期的迹象。研究发现,不同地区和家庭对个人流动性的需求各不相同。如果一个地区没有良好的公共交通,那么对汽车的需求就会显著增加。总体而言,富裕家庭似乎有更高的旅游需求。研究发现,节能汽车比能源评级低的汽车驾驶次数更多。在拥有多辆汽车的家庭中,根据效率标签可以发现车辆使用差异高达21%。从政策制定者的角度来看,建议进一步研究具体领域,以评估考虑到人们车辆使用行为差异的不同政策工具的可行性。
尼古拉斯·孟
最佳投资组合-风险管理和投资组合优化的先进技术的好处 莎拉·范德吉尔
马库斯·卡利什
2013年5月-
文摘:本硕士论文涉及投资组合和风险管理从业者面临的最重要的挑战。它将各种风险和优化方法嵌入到一个通用框架中,并对美国市场的典型行业轮换策略进行了实证回溯测试。本研究的目的是评估错误假设在风险建模和投资组合优化中的影响,因为最近的一项调查显示,尽管经验证据与他们的假设相矛盾,从业者仍然在使用基于错误假设的简化方法。本文将多种风险和优化方法嵌入到一个通用框架中,并对美国市场的一个典型行业轮换策略进行了实证回测。首先,我们将不同的风险预测模型应用于实证数据。除了仍然突出使用的无条件模型外,还实现了恒定条件相关(CCC)和动态条件相关(DCC)模型,并根据波动率、VaR和CVaR的风险度量对预测性能进行了评估。有明确的经验证据表明,在2008年金融危机期间,无条件模型表现不佳,导致严重的预测不足和损失聚类。更为复杂的DCC模型提供了最准确的预测,其次是CCC模型。这说明错误的模型假设在实践中会导致不可接受的结果。基于所有风险模型的预测,测试了两种优化方法。 An adapted version of the traditional mean-variance optimization is employed. Additionally, a relatively new method of diversification optimization is implemented and compared against return maximization, subject to a CVaR constraint. Using this comparison, we examine the effect of estimation error on the expected returns and risk parameters. As a diversification approach is invariant to the estimates of expected returns, we assume that it should provide more stability to an optimized portfolio. We were able to confirm the concerns about estimation error and found that return maximization does not lead to optimal portfolios out of-sample. In contrast, the empirical results of the diversification-CVaR strategy are promising. Maximum diversification of independent risk factors leads to better performance in terms of both, realized risk and returns. In light of these findings, we question the practice of using the traditional method of return maximization, as the cost of ignoring estimation error in the optimization seems to be significant. Finally, we conclude that the standard approach still followed by a majority of practitioners does not deliver satisfactory results due to wrong assumptions about the statistical properties of the financial markets. We conclude that conditional risk estimates and the problem field of estimation errors are important aspects that cannot be neglected solely for the sake of simplicity.
聪达黄
半监督学习方法用于具有正的和未标记的例子的问题 莎拉·范德吉尔
马库斯·卡利什
托马斯·比尔,瑞士电信
4月- 2013
文摘:一家公司可以使用追加销售的方法来升级其客户从该公司购买的产品。在增加利润的同时,通过新的升级产品提高客户对公司的依赖程度,有助于降低流失率。这在波动性大、客户忠诚度低的电信行业尤为重要。追加销售最简单的方法就是为顾客提供升级版的产品。但是,为什么不把所有的产品提供给所有的客户,原因是太多的营销信息会惹恼客户。在这篇文章中,我们将介绍和比较几种可以支持决定是否向客户提供产品的方法。通过基于真实数据集的仿真研究,验证了该方法的有效性。研究结果表明,几种方法都有很大的潜力
鲁本Dezeure
高维统计的p值 彼得Buhlmann 3月- 2013
文摘:在这项工作中,研究了最近发表的高维统计假设检验方法。通过测试各种测试设置(包括真实数据集)的线性模型中的变量重要性来比较这些方法。对于多重测试校正,使用了与westfall - young程序密切相关的程序,该程序已被证明具有渐近最优功率。回归系数的估计性能也进行了研究,以提供不同水平的比较。最后,我们还测试了一个逻辑回归模型,以研究在广义线性模型中的测试是否可靠。
哈拉尔德Bernhard
状态空间模型的参数估计 汉斯·鲁道夫Künsch 3月- 2013
文摘:在一般状态空间模型中,我们考虑了粒子近似过程通过人工时变参数的过滤矩对分数函数的有效性。为了研究这个问题,我们考虑了一个简单的双状态隐马尔可夫模型,其中有确切的参考值。对于这个模型,我们进行了模拟研究,以估计关于分数近似过程的几个诊断统计量。然后将结果用于在同一模型中执行最大似然估计,使用噪声分数近似与随机近似程序相结合。
汉内标记
鲁棒测试与鲁棒模型选择 沃纳Stahel
曼努埃尔·科勒
3月- 2013
文摘:正如本文标题所示,本文属于鲁棒统计学领域。本文主要分为三章:线性模型检验、广义线性模型检验和模型选择。我们从线性模型开始,在那里我们描述了经典的估计和经典的测试。在介绍了经典方法之后,我们引入了鲁棒估计,即SMDM估计器。随着我们的稳健估计,我们提出稳健测试,包括一个新的稳健得分测试。为了提高我们新的稳健分数测试的速度,我们开发了从约简模态估计量表参数$sigma$的方法。复合假设最突出的稳健性检验是稳健性Wald检验和$ au$-检验。这两种测试都需要大量的计算,它们需要拟合完整的模型。我们开发了新的稳健测试,只需要拟合简化模型。在广义线性模型(GLMs)中,我们再次描述了经典估计和经典检验。通过使用鲁棒评分,我们引入了鲁棒估计。 In GLMs, 2 prominent robust tests already exist, the quasi deviance test and the robust saddlepoint test. However, they are computationally expensive. So we introduce the robust Wald test and the robust score test, which are both computationally cheaper. Here we compare the quasi deviance test with the robust Wald test and the robust score test, while simultaneously comparing them to the classical saddlepoint test. In the chapter on model selection, we introduce an important method, the classical Mallows' $C_{p}$ criterion. By using the classical Mallows' $C_{p}$ criterion in an example, we discuss the importance of using robust methods for model selection. So we develop our own robust Mallows' $C_{p}$ criterion, which works well in the example. We compare the classical and the robust Mallows' $C_{p}$ criteria with each other in a simulation study. Another approach to model selection, based on testing is also discussed. I have tried to make this thesis as self contained and as comprehensive as possible, while keeping to the essentials. Chapters 2 and 4 should be accessible for people with a good foundation in linear regression. While chapter 3 should be accessible with a good foundation in generalized linear regression.
本杰明Stucky
二级显著性检验 莎拉·范德吉尔 2013年2月,
文摘:现代信息收集技术的出现在带来诸多好处的同时,也带来了一些新的问题和挑战。如今,我们需要能够处理庞大的数据集。我们经常会遇到这样的问题,一些感兴趣的信息很少包含在我们的数据中。与此同时,这些信息很难与其他观测结果区分开来。本文将重点研究如何借助一种称为高级批评的方法来检测这种稀疏信息的存在。这是一个假设检验,用来确定我们是否在许多零假设中有很小一部分非零假设,或者这个部分是否确实为零。为了定义这个检验,我们需要一个不同显著性检验的集合,因此被称为二级显著性检验。高级批评是由Tukey在1976年提出的,Donoho和Jin在2004年提出的。本论文主要基于他们的工作以及Cai et al.[9]的工作。本文主要讨论了稀疏信号的检测,但也讨论了一些信号密集的情况。 Higher Criticism works very well for the adaptive detection of sparse and faint signals amongst background noise. Adaptive means that Higher Criticism is able to work without knowing the sparseness and the faintness of the detection problem. The case where the data is Gaussian distributed is the basis for developing the Higher Criticism test statistic. In this setting Higher Criticism is optimal. Optimality means that asymptotically Higher Criticism is able to detect all theoretically detectable signals. The detectable signals are described by the detection boundary. We also encounter the problem of correlated observations. There we can modify Higher Criticism and still get nice results, this follows the work of Hall and Jin [19]. The notion of the detection boundary and Higher Criticism can even be generalized to a wide range of different settings due to Cai and Wu [12]. Higher Criticism thus solves one challenge that new technologies have posed us. We discuss other important problems connected to the detection of sparse signals according to Cai et al. [10], such as the estimation of the fraction of sparse signals and discovering which observations are signals of interest.

2012

学生 标题 顾问(s) 日期
Giacomo Dalla Chiara
因子法在高维数据预测中的应用 彼得Buhlmann 2012年10月,
文摘:本研究考虑在线性回归环境中使用一些宏观经济预测因子(N)来预测财务回报的时间序列,这些预测因子可以超过时间序列观测值(T)的数量。通常,回归估计技术要么只考虑少数几个预测因子,要么假设参数向量是稀疏的。最近的几篇论文主张使用因子方法来处理这种高维数据,而不丢弃任何预测因子。假设数据上有一个近似因子结构,可以使用有限数量的指标来总结大的时间序列集,这些指标可以使用主成分进行一致的估计。首先,我们回顾了最近的理论发展在构建和估计的预测程序,使用大维度近似因子模型。目的是将这些研究与实证研究联系起来,实证研究展示了在现实数据上实施的因素模型的混合性能结果。在第二部分中,我们讨论因子模型的四种实现技术,即(i)筛选,(ii)估计窗口大小选择,(iii)因子选择,(iv)因子增广回归中的变量选择。我们认为,这四种方法在经验文献中经常被单独考虑,对于因子模型实现比低维模型更好的预测性能至关重要。在本研究的最后一部分,使用或不使用上述方法的因子增强模型,使用Stock and Watson(2006)宏观经济和金融预测器数据集来预测标准普尔500指数每月收益的时间序列。事实上,实证结果表明,在因子模型中,筛选和估计窗口大小的选择是必要的,以优于较低维度的基准。这项工作的主要贡献是为将大维度因子模型应用于实际数据提供了一般指导方针。 All the practical methodologies discussed in the paper are coded in the R programming language, and are contained in Appendix E.
拉斐尔维斯
从观察数据预测联合干预的效果 玛洛Maathuis 2012年9月-
文摘:人们普遍认为,从观察数据中发现因果知识是不可能的,需要使用实验。事实上,当一个人不愿意做任何假设时,从观察数据中学习因果信息确实是不可能的。然而,在一些相当一般的假设下,IDA (DAG缺席时的干预演算)是一种可以从观察数据推断因果效应信息的方法。目前的工作从两个方面扩展了国际开发协会的方法。首先,在系统受到单一外界干扰的情况下,提出了两种新的算法:IDA路径算法和IDA半局部算法。这些算法在统计性能和计算效率方面都得到了较好的仿真研究。其次,国际开发协会的方法可以扩展到寻求外部联合干预对系统的因果影响信息的情况。本文介绍了IDA IPW联合和IDA Path联合两种算法,仿真结果令人鼓舞。这些用于联合干预的新算法可以很容易地扩展到创建用于系统上任意多个外部干预的ida型算法。
劳拉Buzdugan
高维统计推断 彼得Buhlmann
马库斯·卡利什
8月- 2012
文摘:目前的工作旨在解决高维设置中的错误控制问题。这一任务已被证明具有挑战性,因为:1)难以推导估计量的渐近正态分布,以及,2)预测变量普遍表现出高度的多重共线性。这两个问题是通过结合Bühlmann(2012)的基于附加偏差校正项的岭估计构造p值的方法,以及Meinshausen(2008)提出的在所有水平上控制FWER(家庭Wise错误率)的分层测试程序来解决的。这导致了p值的构造扩展到响应变量是多变量的情况。新方法在SNP表型关联数据集上进行了测试,这也允许研究不同的偏差校正方法。
米歇尔•菲利普
医疗保险管理医疗计划的成本效率 沃纳Stahel 8月- 2012
文摘:医疗保健系统中的管理式医疗(MC)计划承诺以显著较低的费用提高医疗服务质量。因此,政治家和医疗保险公司有强烈的动机从医疗保健支出(HCE)的历史数据来估计这种替代保险计划的成本效率。然而,在观察性研究中估计基本保险计划和替代保险计划之间的成本影响尤其具有挑战性。不同保险集体中基线特征的差异导致了选择偏差。当保险公司向MC计划的投保人提供折扣时,这种情况尤其明显,这有效地创造了一种主要面向年轻人和健康人群的经济激励。本文首先讨论了在估计MC计划的成本效率时所面临的统计挑战。要从基于观察到的卫生保健数据的估计中得出因果结论,MC计划分配必须独立于相关混杂因素亚组内的HCE。不幸的是,并非每一个潜在的混杂因素都能被保险公司观察到,因此我们得出结论,从现有的医疗保健数据估计因果影响是不切实际的。然而,保险公司同样对监测不同保险计划之间的HCE感兴趣。的refore, we analyse data from a large Swiss insurance company using Tobit regression to estimate differences in (left-censored) HCE between basic and MC insurance plans, particularly within regions and pharmaceutical cost groups. Further, we attempt to improve the models using a propensity score, the probability of choosing MC insurance and calculate the confidence bands of the resulting differences in HCE between insurance plans from 100 bootstrap replications. To avoid additional bias we excluded covariates that are potentially affected by the MC plan.The estimates that we receive with our models vary significantly between regions. However, in total we obtain lower HCE compared to basic insurace of (with 95% confidence limits) Since it is unknown if the requirements for causal inference are met, our conclusion is that one can not absolutely exclude remaining selection bias from these estimates.
Rainer奥特
基于小波包变换的股指预测算法 汉斯·鲁道夫Künsch
克里安Vollenweider
Evangelos Kotsalis
8月- 2012
文摘:在这篇硕士论文中,我们开发了预测算法,它优化了一组特定的小波包树和平滑参数的性能测量。算法对2003年12月18日至2011年12月30日DAX的每日价格进行了评估。采用基于离散小波包变换(DWPT)延迟版本的量化收益质量度量算法,我们实现了优于指数加权移动平均趋势跟踪器的收益质量度量。对于同样的算法,25个小波包树中有3个被观察到是有利的。此外,如果使用Haar基,则发现DWPT始终优于离散小波变换。
Sylvain罗伯特
股票价格动态模型的序贯蒙特卡罗方法 汉斯·鲁道夫Künsch
Didier Sornette
8月- 2012
文摘:股市经常表现出远离均衡的行为,比如泡沫和崩盘。Yukalov等人(2009)开发的模型旨在描述股票价格的动态,特别是它们偏离其基本价值的方式。目前的工作感兴趣的是估计模型的参数和过滤潜在的错误定价过程。各种序贯蒙特卡罗方法被应用于手头的问题。特别地,本文推导出了一种完全自适应的粒子滤波器,并显示出最佳的性能。虽然不同的方法都能很好地处理滤波问题,但参数的估计却有很大的困难。然而,可以确定市场类型,它定性地描述了股票的动态。这些方法在应用于道琼斯工业平均指数之前,首先在模拟数据上进行了测试。后一种应用导致了非常有趣的结果。事实上,估算的模型提供了对潜在动态的洞察,对错误定价过程的过滤,使人们对过去40年的一些重要金融事件有了新的认识
Radu Petru Tanase
从高斯结构方程模型学习因果结构 乔纳斯彼得斯
彼得Buhlmann
8月- 2012
文摘:传统的因果推理算法假定马尔可夫和忠实条件,并将因果结构恢复到马尔可夫等价类。最近的进展表明,通过使用结构方程模型,可以进一步研究,在某些情况下,可以从联合分布中确定潜在的因果DAG。我们关注具有相同噪声方差的线性高斯SEMs的可识别性结果,并提出了一种从此类模型中估计因果DAG的算法。我们在仿真研究中评估了该算法的性能,并将其与另外两种现有方法的性能进行了比较:PC算法和贪婪等价搜索。
马特奥Tanadini
使用部分曼特尔测试的关系矩阵回归 沃纳Stahel 2012年7月
文摘:关系矩阵和用于分析它们的统计方法在科学中越来越重要,因为越来越多的系统由网络表示。关系矩阵通常用于社会科学、生物学或经济学等领域。在具有关系矩阵的多元线性回归的背景下,部分曼特尔检验代表了推理的标准统计框架。在文献中可以找到几种这种方法。为了评价这些方法的性能,对数据集进行合理的模拟是必不可少的。不幸的是,迄今为止进行的比较部分Mantel测试性能的研究依赖于不充分的模拟数据集,因此值得怀疑。这篇硕士论文的目标是使用最先进的模拟技术来比较广泛使用的部分Mantel测试的性能(以水平和功率来衡量),并描述具有改进性能的新实现。在第一阶段,我们专注于提高模型的质量,用于模拟数据集与关系矩阵的多元线性回归。我们能够提出两个方便的程序来模拟预测器(即关系矩阵)。我们还可以用关系矩阵来模拟线性回归的误差项。 In a second phase, we described three modi_cations for partial Mantel tests that are supposed to improve performance. The implementation of these improvements in a Rcode will be object of future research. Finally, we compared the performance of three partial Mantel tests using datasets simulated according to our improved technique. The results agree with previous studies and confirm that the method proposed by Freedman & Lane has the best overall performance.
马库斯Harlacher
基于协整的统计套利 莎拉·范德吉尔
马库斯·卡利什
2012年7月
文摘:本文分析了一个基于协整的统计套利模型。从主题的简要概述开始,进行了模拟研究,旨在阐明这种模型的作用模式,并强调该方法的一些潜在缺陷。该研究继续对1996年至2011年期间的美国股市进行回溯测试。所有经过测试的不同模型版本的结果看起来都很有希望。“传统的”基于均值-方差的绩效度量证明了所采用的基于协整的统计套利模型有很好的结果。对标准普尔500指数收益的高级依赖分析和从反向测试中获得的收益显示了一个非常有利的结构,并表明这样的模型可以提供与标准普尔500指数收益仅非常周相关的收益。
永胜王
Copulas的数值逼近和拟合优度 马丁Machler
沃纳Stahel
2012年7月
文摘:本文首先介绍了共轭曲线,推导了椭圆共轭曲线的Rosenblatt变换。为了避免在估计冈贝尔联结密度的数值挑战,提出了几种方法。作者找到了一种在各种条件下选择合适方法的算法。它是在使用基准方法dsSib时,首先确定比特精度得到的。然后进行模拟研究进行比较。然后回顾了关联函数的拟合优度方法,包括基于经验关联函数的检验、Rosenblatt变换、Kendall变换和Hering-Hofert变换。作者进行了大型模拟实验,研究了维度对各种原假设联结和备选联结组合的拟合优度检验水平和幂的影响。结果通过置信区间和功率比的图表来解释。此外,还探讨了计算时间、维数、样本容量和自举次数之间的关系。最后,在不同的Student-t、Gumbel和Clayton联结族下,用图形拟合优度检验了道琼斯30指数的依赖结构。用最大似然估计器估计非结构化相关矩阵和最优自由度的Student-t联结给出了最优解。
阿曼达强
以变点检测为重点,对异常检测进行了综述 莎拉·范德吉尔
马库斯·卡利什
2012年7月
文摘:异常检测的目标是识别在某种意义上不“正常”的数据。异常和正常的定义很大程度上取决于应用程序。跨应用程序的统一因素是,通常异常很少发生。这意味着我们没有太多的信息可以直接模拟异常产生的分布。我们将描述几种接近异常检测的方法,并讨论这些方法的一些性质。变点检测可以被认为是异常检测中的一个子主题。这里的问题设置更具体。我们有一系列的观测,我们想检测它们的生成分布是保持稳定还是发生了一些突变。变更点分析的目标可能包括检测已经发生的变更以及估计变更的时间。我们将讨论一些用于变点检测的经典方法。 As very large datasets become more common, so do the instances in which it is dificult or impossible for humans to heuristically monitor for anomalous observations or events. The development and improvement of anomaly detection methods is therefore of everincreasing importance.
彼得Fabsic
比较ROC曲线估计方法的准确性 彼得Buhlmann 2012年7月
文摘:本研究的目的是比较常用的ROC曲线估计方法的准确性。比较了以下ROC曲线估计器:经验、参数、副法线、“对数-凹”及其平滑版本(如Rufibach(2011)中介绍的),以及基于核平滑的估计器。进行了两个模拟,每个模拟评估了估计器在一系列场景中的性能。在每个场景中,我们模拟来自已知分布的数据,并计算真实和估计的ROC曲线。我们使用各种方法来评估估计值与真实曲线的接近程度。在第一个模拟中,使用大样本量来计算估计的ROC曲线。在另一个模拟中使用了一个小得多的样本量。“对数凹估计器”被发现在大样本可用时表现最好。另一方面,基于核平滑的估计器在样本量较小的情况下,性能优于其他估计器。
埃德加·艾伦·穆罗·希门尼斯
关于统计学习理论与在线凸优化 莎拉·范德吉尔
2012年7月
文摘:这项工作分为两部分:在第一部分中,我们提出了经验过程和来自专家建议预测(PWEA)的游戏最小最大遗憾之间的关系。我们用这个表达式来说明PWEA最小极大遗憾的下界如何可以给我们一些关于所使用的专家类的形式的信息,特别是,它是否是VC类。在第二部分中,我们从理论的角度分析了统计学习、PWEA和在线凸优化(OCO)算法性能的相似性。我们给出了三种方法的结果,这些结果向我们表明,预测误差的衰减速率取决于损失函数在预测器选择空间上的曲率。此外,我们提供了统计学习和OCO定理,表明在期望损失的最小值不是唯一的前提下,可以获得相似的遗憾下界。这为统计学习算法和OCO算法性能之间的相似性提供了更多的证据。最后,我们证明了任何PWEA游戏都可以被视为OCO游戏的特例。尽管这代表了为PWEA寻找上界的优势,但我们给出的示例中,最初为OCO创建的遗憾上界并不比为PWEA创建的遗憾上界好
埃琳娜Fattorini
估计观察数据的因果影响方向 玛洛Maathuis 2012年7月
文摘:在许多科学研究中,因果关系是至关重要的。不幸的是,如果不做一些假设,仅用观察数据来计算因果影响是不可能的。本文假设观测数据是由未知有向无环图(DAG)生成的。在这样的模型下,可以使用Maathuis、Kalisch和Bühlmann(2009)的方法计算因果效应的边界。这种方法背后的思想如下。首先,人们试图估计生成数据的DAG,然后计算得到的DAG的因果关系。然而,在我们的假设下,我们通常只能识别与数据兼容的dag等价类。由于存在这些不同的可能产生的dag,从变量X到变量Y的因果效应并不总是唯一的。然而,我们可以在等价类中识别每个DAG的因果效应,并将所有这些效应收集到一个多集中。可以使用汇总度量对这些多集进行汇总。 For example in the paper of Maathuis et al. (2009) the minimum absolute values is used as a summary measure. That gives a lower bound on the size of the causal effect. In this thesis, we focus on the problem of how to derive the sign of the causal effects. Clearly, the minimum absolute value is not appropriate for this purpose. Eight new summary measures are proposed and simulation studies are performed to detect the summary measure that best detects the largest positive causal effects among a set of given variables. The summary measures are compared using averaged ROC curves. The maximum and the mean results to be the best summary measures. In the estimated graphs it occurs that some edges are directed in the wrong direction. A large positive causal effect can be estimated as zero due to a wrong directed arrow. Therefore, in order to detect all the largest positive causal effects, one should also investigate the effects which are estimated as zero.
大卫Schonholzer
德国坎顿地质统计学Zürich Andreas Papritz
汉斯·鲁道夫Künsch
2012年7月
文摘:Im Rahmen des erhöhten Bewusstseins der zuneemenden Versauerung der Waldböden in der Schweiz and Im kartiert diese Arbeit erstmals annähernd flächendeckend den Versauerungsgrad der Waldböden Im kananton Zürich andhand des geschätzten pH-Werts Im Oberboden。大足werden ehe von national and kantonalen Datensätzen über数据统计,Klima,植被,地形和地质数据统计和统计Schätzung数据统计数据。统计的基本原理Schätzung自然科学的基本原理Messgrössen自然科学的基本原理,自然统计的基本原理,地质统计和健壮统计的基本原理。
Myriam里克•
面向高维分类数据一致性的pc算法 玛洛Maathuis 2012年6月,
文摘:pc -算法是一种算法,用于从数据中了解或估计因果充分的随机变量集V之间的因果结构。在可信度的假设下,pc算法产生了表示V上因果结构的马尔可夫等价类的图的估计,这些图与定义在V上的概率分布兼容。估计量的一致性是一个至关重要的性质。在某些条件下([10]),它已被证明适用于在高维环境中变量数量随样本容量增加的多变量正常数据的pc算法。在这篇硕士论文中,试图证明pc -算法应用于低维和高维分类数据的一致性。
Stephan Hemri
使用贝叶斯模型平均校准头部集水区的多模型径流预测 汉斯·鲁道夫Künsch
Felix Fundel
2012年5月-
文摘:一种量化水文降雨-径流模型不确定性的方法是使用气象集成预测系统作为水文模型的输入。这种集合预测可能包含大量的确定性预测。不确定性是由它们的价差决定的。由于此类集合预报往往分散不足,有偏差,并且没有考虑到其他不确定性来源,如水文模型公式,因此需要应用统计后处理来实现精确和校准的预测。本文应用贝叶斯模型平均法(BMA)对瑞士阿尔卑斯河2007年夏季至2009年底的径流预报进行了后处理。来自一个确定性预报和两个集合预报的总共68个集合成员被用作BMA的输入。这些预测涵盖了从1小时到240小时的不同交货时间。首先,在前置时间相互独立的假设下,基于单变量正态分布和逆伽马分布进行BMA。然后,为了同时估计整个提前期范围内的多变量径流预报,放宽了独立性假设。这种方法基于使用多元正态分布的BMA版本。 Since river discharge follows a highly skewed distribution, Box-Cox transformation is applied in order to achieve approximate normality. Back-transformation combined with data quality leads in some cases to too high predicted probabilities of extremely high runoffs. Using the inverse gamma distribution, instead, cannot remove this problem, neither. Nevertheless, both, the univariate and multivariate, BMA approaches are able to generate well calibrated forecasts that are considerably sharper than the climatology
琳达斯桃波
支持向量机的统计分析 莎拉·范德吉尔
3月- 2012
文摘:我们从理论和计算的角度分析支持向量机,分别解释这个算法的每个构建块,其中我们主要限制自己的二进制分类。我们从损失函数和风险开始,然后离题到核函数理论及其再现核希尔伯特空间。然后,我们准备执行统计分析,在第一部分中,我们假设数据是独立的和同分布的。本分析旨在研究在正则化序列上的哪些条件下,该方法是一致的,更有趣的是,找到最优的学习率和接近它的方法。因此我们解释了[21]给出的结果,并添加了缺失的证明。接下来,我们简要地讨论了支持向量机的计算方面,在那里我们表明,在数值上,这个问题被简化为求解一个有限维的凸程序。随后,我们通过将包e1071中的R函数svm()应用于独立和同分布的数据来解释如何在实践中使用支持向量机。然后我们稍微违背了这个假设,生成了一个GARCH过程的数据,这个数据自然带有依赖结构,并且观察到算法对于这类数据仍然能产生很好的结果。在[22]的工作之后,我们通过对弱依赖数据的支持向量机进行统计分析,最终找到了对此的理论解释。
基督教哈斯
市场效率分析:瑞士股票价格的收益后漂移 彼得Buhlmann 3月- 2012
文摘:股票市场行为和市场效率的研究是概率论和统计学中一个非常活跃的话题。市场模型及其含义最近不仅是数学和经济学界的焦点。在这篇论文中,我们看了一些市场模型和市场效率的研究。因此,我们建立了效率和回归背后的理论。在第7章中,我们研究了瑞士股票的收益后漂移。我们发现,在收益发布后,市场的第一反应在盘中出现了明显的漂移。然后,我们使用我们的结果来研究一种策略,并试图回答我们是否发现了市场效率低下。
Ana Teresa Yanes Musetti
金融时间序列的聚类方法 马丁Machler
沃纳Stahel
3月- 2012
文摘:本文的目的是研究标准普尔100指数中的一组公司,并确定一起移动的股票收盘价是否对应于属于同一经济部门的公司。为了验证这一点,将不同的聚类方法应用于与公司之间的依赖程度相对应的不同相似矩阵。由于财务数据不呈现多元正态分布,因此需要采用非参数依赖度量。为此,我们回顾了Hoeffding 's D、Kendall 's τ和Spearman 's ρ的理论。然后,为了选择最佳的聚类解决方案,应用了一组验证统计信息。为了提前比较不同聚类方法的性能以及不同情况下聚类重叠程度的验证统计量,进行了两次仿真研究。第一个模拟是基于从Wishart分布的协方差矩阵样本中计算的相关矩阵,第二个模拟是基于高斯混合分布的模型。这项研究表明,数据的转换,无论是从依赖度量或距离到(不)相似,都对聚类方法的性能有影响。此外,关于验证统计数据,在模拟研究中,其中一些统计数据在极端情况下表现不佳,其中集群分离得非常好。最后,在对标普100成分股公司进行聚类时,将PAM方法应用于Hoeffding 's D估计的不相似矩阵,得到了较AGNES、DIANA和DSC聚类方法的最佳解,与仿真研究结果和理论分析结果一致。
卢卡斯·帕特里克·阿贝格
市场风险模型分析 沃纳Stahel
Evangelos Kotsalis
卢卡斯Wehinger
3月- 2012
文摘:在本文中,风险模型在与swissQuant GroupAG和瑞士一家主要银行的联合项目中进行评估。评估和比较了基于garch模型和不同分布假设的高复杂性风险模型,以及基于EWMA模型和正态分布的简单模型,以获取每周数据。以图形方式评估样本外结果,并使用应用于大规模数据的统计检验进行评估。在95%置信水平下,简单模型和复杂模型下的风险价值估计质量被评估为相似。然而,如果考虑较高置信水平的预期不足和风险价值,复杂的方法可以改进风险估计。此外,还开发了基于copulas、GARCH模型和非参数分布估计的风险模型,并发现其性能优于所提供的风险模型。
玛蒂娜·阿尔伯斯
有界支持密度的边界估计 Geurt Jongbloed
玛洛Maathuis
3月- 2012
文摘:当用核密度估计估计有界或半无限区间上支持的密度时,可能会在边界处出现问题。在过去,“标准”核密度估计器的许多变体已经被开发来实现边界修正。平滑估计的分布和密度函数最近已经导出了当前状态截尾数据。本课题与核密度估计密切相关,所提到的边界问题也会在此背景下出现。在这篇硕士论文中,一些边界修正与当前状态截尾数据的平滑分布估计相结合。利用R软件对这些新结构进行了仿真分析。
Alexandros Gekenidis
从二元国际数据学习因果模型 彼得Buhlmann 3月- 2012
文摘:本文的目标是提供并测试一种从二元数据中进行因果推断的方法。为此,我们首先介绍了描述随机变量之间因果关系的数学工具,例如有向无环图(dag),其中随机变量由顶点表示,而边代表因果影响。然而,DAG只能被识别到马尔可夫等价,这大致意味着人们可以估计它的骨架,但不能估计大多数边缘的方向。这可以通过进行干预来改善,即将某个值强加于一个或几个随机变量,并观察其他因素值的变化,以获得额外的数据。由此产生的马尔可夫等价类比非干涉类更能划分dagg的空间,从而提高了估计的可能性。基于此理论,我们将现有的贪婪干涉等价搜索算法(GIES,[1])应用于二元随机变量的情况,并在模拟数据上进行测试
埃斯特·伊洛娜·罗恩
昏迷病人临床评分的估计——模型选择方法的比较 沃纳Stahel
马库斯·卡利什
3月- 2012
文摘:本论文旨在探讨以客观的临床测量来评估昏迷病人临床意识评分的可能性,以取代昂贵且费时且主观的医生检查。通过交叉验证对变量选择方法和模型拟合方法进行了比较。基本分析扩展到块子集分析,替代交叉验证方案和分析临床评分的动态。由于样本数量较少,过拟合现象在整个分析过程中都是一个严重的问题,这可以从样本内模型拟合和交叉验证模型拟合的差异中看出。一般来说,我们观察到低方差(高偏差)方法在这个样本量上表现更好。最后得出结论,基于该样本,临床测量几乎不包含临床意识评分的信息。
丽莎Borsi
使用g计算估计切换到二线抗逆转录病毒治疗的因果影响 玛洛Maathuis
马库斯·卡利什
托马斯Gsponer
3月- 2012
文摘:了解暴露和结果之间的因果关系在许多领域都有很大的兴趣。在这项工作中,对包括南部非洲(赞比亚和马拉维)经历免疫衰竭的艾滋病毒感染患者在内的研究人群进行了切换到二线抗逆转录病毒治疗对死亡的因果影响估计。CD4细胞计数被认为是治疗转换和死亡的一个随时间变化的混杂因素,而它本身受先前治疗的影响。鉴于不可能进行随机实验,我们通过g计算解决时变混淆问题。在某些条件下,g计算通过模拟如果通过干预将治疗设置为某种制度,研究人群将会发生什么,从而得出因果效应的一致估计。在我们的分析中,我们比较了干预“总是切换到二线治疗”和干预“总是保持一线治疗”。我们发现由此产生的风险比为0.24 (95% CI 0.14-0.33),这强调了切换到二线治疗的人群的死亡风险小于继续接受一线治疗的人群。因此,我们得出结论,在经历免疫衰竭的hiv患者中,切换到二线治疗具有有益的因果效应。
Gardar Sveinbjoernsson
从观察数据推断因果关系的实践方面 彼得Buhlmann 3月- 2012
文摘:在这篇论文中,我们研究了从观察数据推断因果关系的方法。在某些假设下,可以使用Pearl的干预演算来估计因果效应,前提是数据补充了已知的因果影响图。我们研究了IDA算法,该算法估计该图的等价类,并使用干预演算来获得因果效应大小的下界。由于发现结构是一项艰巨的任务,特别是在高维环境中,我们将IDA算法与稳定性选择结合起来,这是一种选择最稳定因果效应的子抽样方法。为了改进,我们在一个数据集上验证了我们的结果,其中真实的因果关系是从实验中得知的。我们还通过模拟研究来研究我们方法的稳健性,在模拟研究中,我们观察违反假设的情况。
西蒙•坎斯
随机微分方程参数的模拟极大似然估计 卢卡斯迈耶
沃纳Stahel
3月- 2012
文摘:
马塞尔Freisem
估算银行贷款组合的评级转换概率及其对宏观经济条件的依赖 彼得Buhlmann 2012年2月,
文摘:
Tulasi Agnihotram
目标snp的统计分析及其与表型的关系 彼得Buhlmann
马库斯·卡利什
2012年2月,
文摘:基因组学不仅影响着医学领域,而且还影响着行为科学、经济学等与之相距甚远的领域。本论文的主要目标是利用监督学习技术,研究由snp所代表的基因组与个体的行为特征(如风险规避)之间的关系。人类基因组有23条染色体,其中包含数百万个snp的信息。将监督学习技术应用于数百万个snp是困难的,而且可能效率不高。为了简化分析,我们选择目标snp,它可以代表周围所有的snp。用我们改进的Carlson算法可以通过连锁不平衡找到目标snp。将目标SNPs位点的基因型数据应用随机森林(一种监督学习技术)作为预测因子,将已分类的表型数据作为响应向量,得到的每种表型对应的错误率不具有信息量。采用启发式方法,从染色体上的所有snp中根据它们与表型的秩相关来选择最佳snp。以Best SNPs的检验数据为预测因子,以表型的分类检验数据为响应向量,随机森林的错误率并不能说明基因型与表型之间的关系。此外,我们将此方法应用于随机SNPs,并将结果与目标SNPs、最佳SNPs的结果进行比较,为今后的工作提供方向。

2011

学生 标题 顾问(s) 日期
金成元
基于经验过程理论的经验过程研究及其在非参数统计中的应用 莎拉·范德吉尔 12月- 2011
文摘:任何估计量都是经验测度的函数,而我们要估计的是理论测度的函数。然后,为了证明我们的估计量,我们希望看到估计量,一个经验测度的函数,收敛到参数,一个理论测度的函数,随着样本量的增长。然而,一般来说,要测量的函数是未知的,人们希望看到所有可能函数的类同时收敛。因此,我们提出了一致的大数定律来证明一类函数的经验度量收敛于该类函数的理论度量。为了证明它,我们需要类的熵条件,它保证了要估计的函数类的适当大小,以及有限包络的条件,其中包络是函数类的极值。此外,我们还讨论了统一中心极限定理,该定理给出了经验测度收敛到理论测度的信息。如果能证明经验过程的等连续,由函数类标出来,如果这个标类是完全有界的,那么这类函数是P-Donsker,等价地,这个过程满足一致中心极限定理。也就是说,经验过程收敛于高斯分布。为表示P-Donsker而导出的等距连续性,将为推导最小二乘估计的收敛速度开辟道路。因此,作为一个应用,我们推导了不同类型的函数的最小二乘估计的收敛速率。 Also, we consider the rate of convergences of the least squares estimators when the penalty is imposed for the complexity of the class of models. Even if one is not aware of the optimal model in the class, the proper choice of penalty would allow one to attain the optimal rate of convergence, as if one knows the optimal model. As the applications of uniform law of large numbers and uniform central limit theorem, convergence and normality of M-estimator are introduced, as well. There, one can see how empirical process theory is applied on the way to proving those properties. Furthermore, in order to see whether a class satisfies ULLN or UCLT, it is convenient to use Vapnik Chervonenkis index, VC index. Vapnik-Chervonenkis class, whose VC is finite, satisfy both ULLN and UCLT with envelope condition, and it would play a role in empirical process
安德烈Meichtry
11年来的背痛和抑郁症瑞士家庭面板数据分析 沃纳Stahel
托马斯Laubli
12月- 2011
文摘:设计和目的:在这项纵向回顾性队列研究中,我们分析了瑞士普通人群11年的背痛和抑郁症数据。主要目的是调查背痛和抑郁症之间的关系。方法:我们使用了瑞士家庭调查小组的数据,在1999年至2009年期间采访了7799人(年龄13- 93岁,平均42.9岁,56.2%为女性)。观察到的抑郁症和背痛被描述了11年。假定缺失与未观察到的数据无关。我们使用曝光和审查权重的逆概率来评估边际结构模型,以评估背痛史和抑郁症之间的(因果)关联。通过用广义估计方程拟合边缘模型和过渡模型来分析相关数据,得到稳健的三明治方差估计。结果:调整其他固定时间协变量的横断面分析显示,随着时间的推移,背痛与抑郁几率增加42%相关。在线性logistic量表上,持续至t−1时的背痛与t时抑郁的相关性为0.65 (95% CI: 0.48-0.82),对应于抑郁的几率增加92%(62-127%)。假设一个因果模型解释了过去抑郁引起的并发背痛,一个边际结构模型(曝光-审查加权模型的逆概率)回归抑郁症与过去背痛的线性logistic尺度上的关联为0.63(0.44-0.81),对应于抑郁症的几率增加了87%(55-126%)。 Expressing exposure history by cumulative back pain up to time t-1, marginal structural model estimated a causal effect on depression at time t that increased with age at baseline and decreased for individuals with depression at baseline. Conclusion: Marginal structural models are well suited for the analysis of observational longitudinal data with time-dependant potential causes of depression, however, marginal structural models do not address all issues of causal inference. Back pain history is one of many possible causes of depression. Future work must collect more socio-economic and health-related covariates, investigate possible non-ignorable missing and investigate other functions of back pain history.
Jongkil金
风乱流数据的重尾和自相似性(2012年7月修正版) 汉斯·鲁道夫Künsch 11月- 2011
文摘:在本文中,我们进行了统计分析,以了解风乱流的特征。我们估计有重尾的风速增量的pdf。此外,我们通过揭示风速增量的二阶性质来估计其自协方差和自相关,以显示自相似性。利用估计的参数讨论了风乱流的简约性质。通过合理的假设,提出了风增量滞后与估计参数之间的关系。并对结果进行了解释。此外,还讨论了风速增量与平均风速的相关性。对风速增量与块平均风速之间是否存在相关性进行非参数检验。同时,研究了两个连续增量对块均值速度的依赖关系。关键词:风乱流,广义双曲分布,正态逆高斯分布,自相似性
Evgenia Ageeva
多元t copula金融市场风险建模的贝叶斯推理 马丁Machler
彼得Buhlmann
2011年9月-
文摘:本论文的主要目标是在贝叶斯推理框架下发展一种马尔科夫链蒙特卡罗(MCMC)方法,用于估计元t联结函数,以模拟金融市场风险。由贝叶斯MCMC得到的联结参数的完全后验分布允许进一步分析,例如计算包含参数不确定性的风险度量。对虚拟和真实股票投资组合收益的模拟研究表明,参数的不确定性倾向于增加损益分配中的风险值和预期不足等风险度量。
Emmanuel Payebto Zoua
Lasso分布的子抽样估计。 彼得Buhlmann 2011年9月-
文摘:我们研究子抽样提供的可能性,以估计拉索估计量的分布,并构建置信区间/假设检验。尽管在后者一致的情况下,子抽样在高阶精度方面不如自举,但在非常弱的假设下,子抽样提供了优势。因此,在Knight和Fu(2000)的基础上,我们首先研究了低维环境下Lasso估计量的渐近性,并证明了在正交设计假设下,有限样本分量分布在允许子抽样置信区间一致性的模式下收敛到极限。我们暗示这个结果具有更大的普遍性。在高维环境下,我们研究了Huang, Ma和Zhang(2008)提出的部分正交假设下的自适应Lasso,并使用分布中的部分oracle结果来证明子抽样应该为非零参数提供有效的置信区间。模拟研究证实了子抽样在低维环境下构建置信区间、检验零假设和通过下抽样p值控制FWER的有效性。在高维设置下,非零系数的置信区间略有反保守性,假阳性率显示为保守性。
Hesam蒙塔泽里
有界数据的非参数密度和模态估计 丽塔戈什
沃纳Stahel
8月- 2011
文摘:本文研究了有界数据的密度估计和模态估计中各种估计器的性能。证明了当真概率密度函数的支持有紧支持时,许多非参数估计量都有边界偏倚。由于边界区域可能占整个支持的很大比例,在许多复杂和实际应用中,边界偏倚问题可能非常严重。在回归和密度估计中,被广泛接受的边界偏差校正方法是自动边界校正[1]。该方法基于局部多项式拟合,不需要对边界效应进行显式修正。在本文的第一部分,我们考虑了该方法和Parzen方法在一些有界单变量和双变量数据的密度估计中的应用。算例表明,基于局部多项式的方法没有明显的边界偏倚。此外,我们还给出了基于局部多项式拟合的密度估计渐近偏差的新公式,其中包含了仓宽参数。在本文的第二部分,我们研究了有界数据的模式估计和几种方法。我们证明,如果真全局模态位于边界区域,许多非参数模态估计方法都存在边界偏倚。 Among the considered methods, mode estimation based on local polynomial shows to have superior performance and it does not seem to have considerable boundary bias problem.
小贝周
急诊科收治非特异性病诉患者严重结局和死亡的预测模型 沃纳Stahel
马库斯·卡利什
8月- 2011
文摘:本文基于Nemec、Koller、Nickel、Maile、Winterhalder、Karrer、Laifer和Bingisser[2010]撰写的《巴塞尔非具体投诉》(BANC)。非特异性投诉(NSCs)在急诊科(EDs)非常常见。然而,在治疗NSCs患者时,急诊医生缺乏经验。我的研究主要集中在ED患者NSCs的严重病情(o ser)和死亡的结局变量。我的主要目标是找到一套方法(分类器),对o和死亡进行高精度分类。此外,我们试图找到一系列与结果变量高度相关的危险因素(解释变量)。我们没有发现一个分类器在所有方面都明显优于其他所有分类器。随机森林、logistic回归和Adaboost在不同的条件下都是有利的。我们发现,使用imputation处理缺失值可以提高分类性能。最后,我们讨论了SMOTE作为一个有趣的,但不完全满意的方法处理高度不平衡的数据。
Marc舔
参数估计的投资组合优化 汉斯·鲁道夫Künsch 8月- 2011
文摘:下面我们将讨论参数估计在平均方差投资组合优化中的作用。我们比较了确定等效方法下的有效边界和贝叶斯预测后验分布。我们将说明样本估计量导致风险低估,并将提供修正的估计量。此外,我们将放宽相同收益的假设,并为时变平均和协方差矩阵引入动态线性模型。本研究将通过分析这些估计器在模拟多元正常数据集和从道琼斯30指数或标准普尔500指数中提取的回报样本集上的性能来结束。
大卫Lamparter
高维回归误差控制的稳定性选择 彼得Buhlmann 8月- 2011
文摘:近年来,针对高维问题的统计方法的发展极大地推进了模型选择的方法,如套索。然而,在高维环境中的误差控制问题已被证明是困难的。最近,一种被称为稳定性选择的方法被提出来解决这个问题。它结合了模型选择和子抽样的方法来提供一种形式的误差控制。本文介绍了稳定性选择的几种变体。它被测试了错误控制是否真的有效。此外,在某些情况下,使用这些变体可能会产生有益的影响。
马可Laubli
部分观测马尔可夫跳跃过程的粒子马尔可夫链蒙特卡罗 汉斯·鲁道夫Künsch 8月- 2011
文摘:本文的目标是研究、理解和实现由Andrieu、Doucet和Holenstein(2010)引入的所谓粒子马尔可夫链蒙特卡罗(PMCMC)算法,并将其与经典的MCMC算法进行比较。在状态空间模型的框架下介绍了PMCMC算法。他们的关键思想是使用序贯蒙特卡罗(SMC)算法来构造MCMC算法的高效高维建议。在离散时间的简单生灭过程和Belousov-Zhabotinskii非线性化学振荡器的理想化模型随机Oregonator上检验了算法的性能。总之,可以说,即使只使用标准组件,PMCMC算法也能产生令人满意的结果,而且用户方面对特定问题的设计工作要求也相对较低。另一方面,必须指出的是,与经典方法相比,计算工作量是巨大的,是一个严重的缺点。
基督教Sbardella
高维回归和生存模型 彼得Buhlmann
帕特里克穆勒
8月- 2011
文摘:在高维回归中,相对于观测的数量,我们有太多的参数,然后我们就会有过拟合的问题。解决这一问题的一种方法是使用Lasso(最小绝对收缩和选择算子)估计回归系数。这个估计器已经变得非常流行,因为在其他特性中,它可以进行变量选择,在某种意义上,一些估计系数等于零。我们研究了Lasso估计量,证明了它的一致性,并在平方误差损失的情况下找到了一个甲骨文不等式。在这篇论文中,我们还讨论了生存分析:这个统计的分支研究了一个人(或一组人)的失败次数,以得出例如,一种新的治疗方法是否有效,或者某一组人是否比另一组人有更多的生存概率。我们主要关注Cox比例风险模型和Weibull比例风险模型。一个自然的问题是:“我们能在生存分析中使用Lasso估计器的理论吗?”我们试图在本文的最后一章(第5章)回答这个问题。
亚历山德拉费德勒
利用互信息估计网络 玛洛Maathuis
马库斯·卡利什
2011年7月
文摘:在许多应用程序中,识别数据集变量之间的关系并在独立网络中可视化这些关系非常重要。我们使用熵和互信息的概念来估计两个随机变量之间的依赖关系。与相关检验相比,这种方法的一个优点是互信息也测量非线性相关性。为了估计数据集的相关图,我们构造了零互信息的统计检验。通过对roc曲线的互信息定义阈值,分析了该方法与已知的估计相关图方法的性能。
奥利弗·伯克哈德
管理式医疗模式对医疗支出的影响 玛洛Maathuis
马库斯·卡利什
2011年7月
文摘:在这篇论文中,我们想要估计1996年瑞士医疗保险引入的管理式医疗计划的成本降低效果。这些计划限制了医疗保健提供者的自由选择,并降低了保费。数据来自一家保险公司,时间跨度为1997年至2000年。的challenge we face comes from the unobserved health of the insured. It can have an influence on both the choice of managed care plan and on the costs caused. We tackle the problem by generating an estimate of an auxiliary variable "latent health'" using Tobit regression which allows us to estimate the causal effect of managed care plans on costs using a Two Part model. We then look at different possibilities to improve the results.We find that the total effect of managed care consists of a part that can be explained through the auxiliary variable and a part that cannot, indicating true cost reduction effects by the managed care models.
尼尔斯·Hagenbuch
利用模拟药代动力学数据分析非线性混合效应模型的四种方法的比较 马丁Machler
沃纳Stahel
2011年6月,
文摘:我们的研究描述了在R中估计非线性混合效应模型的四种不同方法的行为。三种方法采用常微分方程组的封闭形式解析解,第四种方法直接采用常微分方程组。这三个方法分别是来自同名包的nlme()、来自包lme4a的nlmer()和来自包lme4的nlmer()。对于ode,我们使用nlmeODE()和nlme()。使用nlme()的两种方法在估计上没有太大差异。Non-convergences发生。Lme4a和lme4提供了快速可靠的(在收敛方面)例程nlmer(),但也有缺点:固定效应参数的标准误差被高估或低估,参数之间不一致;随机效应的标准差的估计并不总是得益于观测量的增加。三次模拟的结果揭示了lme4a和lme4估计量的不可预测模式,考虑覆盖率、偏差和标准误差作为观测数的函数。本研究的一个局限性是模拟运行次数有限(250次)。
斯蒂芬妮·维伦
区间截尾数据分析的伪似然方法 玛洛Maathuis 3月- 2011
文摘:我们研究了Sen和Banerjee(2007)的工作,重点研究了他们基于伪似然比统计量的方法,在混合病例间隔审查模型中获得生存时间分布函数上零假设的点级置信区间。混合病例间隔截尾数据自然出现在临床试验和各种其他应用领域。这种模型的设置是对n个独立个体进行研究,并且在可能不同的观察时间点对每个个体进行随机次数的观察。在每个观测时间,都记录一个事件是否发生,并对估计该事件的时间分布函数感兴趣,也称为失败。然而,失效时间不能直接观测到,而是受到间隔审查。即只能获得故障是否发生在连续两个观测时间点之间的信息。我们将Sen和Banerjee(2007)的结果扩展到具有竞争风险的混合情况区间删减数据。这是数据,其中故障是由R种风险之一引起的,其中R∈N是固定的。我们定义了一个朴素的伪似然估计的事件分布函数,系统失败的风险r为每r = 1,2,…,R,类似于Jewell, Van der Laan, and Henneman(2003)。我们证明了朴素估计量的一致性和渐近极限分布,并提出了一种基于Sen和Banerjee(2007)引入的伪似然比统计量绘制这些子分布函数的逐点置信区间的方法。
卡琳彼得
边际结构模型与因果推断 玛洛Maathuis 2011年2月,
文摘:我们分析了由伯尔尼社会和预防医学研究所(ISPM)收集的非洲艾滋病毒患者的观察性治疗研究数据。我们特别关注那些接受了一线治疗并经历了免疫衰竭的患者,其中免疫衰竭可能是当前治疗不再有效的迹象。根据医生的决定,其中一些患者被切换到二线治疗(即非随机)。基于这些数据,我们有兴趣估计切换到二线治疗对生存的因果影响。数据包含有关治疗方案和患者CD4计数的信息,这两者都是时间依赖性的。分析中的一个主要挑战是CD4计数,它表明免疫系统的工作情况。CD4计数可能影响未来的治疗和生存,使其成为一个应该控制的混杂因素。另一方面,CD4计数可能受到过去治疗的影响,使其成为一个不应加以控制的中间变量。我们通过使用边际结构模型来解决这个问题。从概念上讲,该方法通过处理权重的逆概率(IPTW)来加权每个数据点,创建一个未混淆的伪总体的数据。 Our results indicate that switching to second-line treatment is beneficial, and slightly more so than an analysis with classical methods would imply.
里特•Burgin
重症监护病房后的疼痛 沃纳Stahel
玛丽安穆勒
2011年2月,
文摘:本研究通过关注三个方面来检查重症监护病房(ICU)住院后12个月内发生的疼痛:i)哪些变量与ICU住院后的疼痛有关?ii) icu相关变量与疼痛的纵向关联是什么?iii)前ICU患者是否比近期未入住ICU的可比患者遭受更严重的疼痛?的first two aspects are examined with statistical analyses of data of 149 former ICU patients: Whilst these data contain three repeated pain measurements per patient - immediately after as well as six and twelve months after the ICU stay - the provided explanatory variables are physiological-, emotional- and sociodemographic-related and were measured before, during and after the ICU stay. The third aspect is examined by using additional data of a control group of 153 subjects.Concerning the first aspect, stepwise regression model selections have identified gender, pain before the ICU stay, four ICU-related variables, agitation and other illnesses as to be useful explanatory variables for pain after an ICU stay. Moreover, anxiety before the ICU stay and the length of stay in the ICU have shown significant associations too.The second aspect, the longitudinal study was examined by the use of a repeated measurement regression model. This model has shown a significant association between ICU-related variables and pain, both six and twelve months after the ICU stay (p-values: 0.005 and 0.025). Whilst the significance of these associations tends to decrease with the time that has elapsed since the ICU stay, the effect of variables which are not directly ICU-related, particularly that of pain before the ICU stay, tends to increase.The third aspect was again analysed with a repeated measurement regression model. This model has demonstrated that ICU patients tend to suffer more severe pain than the subjects of the control group. However, this difference decreases as time passes from the initial ICU stay. As a result, twelve months after the ICU stay, the difference is no longer significant (p-value: 0.3).Finally, the identification of explanatory variables for pain turned out to be the principal challenge of this study. As the discovered explanatory variables are indicators which leave room for interpretation, both an extended discussion of the study results - also with experts from medical sciences - as well as their comparison with similar studies were essential
Weilian史
长金融时间序列实现波动率的分布 沃纳Stahel
米歇尔·达科洛纳博士
2011年2月,
文摘:由于监管机构在危机期间要求相同水平的偿付能力,保险公司面临困境[Zumbach et al., 2000]。本硕士论文主要研究非常长的金融时间序列的对数收益和波动率。我们研究了对数收益和波动率的分布和尾部行为,其中希尔估计器用于波动率分布的尾部指数估计。按照GDP连续两个季度下降即为危机的定义,金融危机被认为是二战后最大的危机。采用线性回归模型分别分析了1947年前后实现波动率与GDP对数收益率之间的关系。它们之间的负相关关系表明,当经济经历衰退时,波动率有增加的趋势。

2010

学生 标题 顾问(s) 日期
阿兰Helfenstein
使用随机森林方法预测航空公司收益管理的od路径预订数据 彼得Buhlmann 8月- 2010
文摘:航空公司收益管理的一个主要问题是准确预测未来的预订需求。对需求的不准确估计导致库存控制不足和收入表现不佳。在这篇论文中,我们描述了需要预测的航空业预订数据的结构,并讨论了瑞士收益管理公司目前实施的贝叶斯预测模型。然后,我们使用不同的随机森林(回归)方法实现新的预测模型,并讨论所有模型预测需求的准确性。作为进一步的结果,我们将说明使用随机森林算法实现回归是如何失败的。
法比奥。”
以可归因发病率为结果的疟疾疫苗试验样本量计算 玛洛Maathuis 8月- 2010
文摘:疟疾是一个重大的公共卫生问题。为了研制一种抗疟疾的疫苗,人们投入了很大的努力。在估计疫苗效力时出现了问题。标准方法如截止方法和逻辑回归可能有偏倚的疗效估计。另一种避免偏差的方法是应用贝叶斯潜在类模型来估计归因风险。使用这种概率方法的一个问题是,不清楚需要多大的试验才能具有与截止方法相当的能力。为了使用这种方法评估试验的规模,已经根据潜在类模型和一些其他约束条件构建了一个假设的种群寄生虫密度。从这些真实值中抽取样本,模拟测量误差并估计疫苗效力。这已经对三种不同的疫苗类型机制进行了研究。对于我们考虑的疫苗,要获得80%的幂,概率方法需要比截止方法多3到12倍的个体。 Whereas the probabilistic has no biased efficacy estimates, two vaccine types have large or very large bias. If vaccine type is not well defined standard methods to estimate vaccine efficacy could produce large biased estimates which can result in a rejection of the vaccine. The probabilistic approach would avoid bias but due to larger size for the same power the costs will be higher.
Doriano Regazzi
组内结构线性模型的套索 莎拉·范德吉尔 8月- 2010
文摘:在高维回归模型中,我们考虑了组参数向量的估计问题。我们假设存在组内结构,在某种意义上,组内变量的顺序表达了它们的相关性。在此背景下,我们研究了两种组套索方法:结构化组套索和加权组套索。我们的工作包括在r中实现这两种方法。首先,我们证明了它们算法的收敛性。然后,我们运行模拟,并在各种情况下比较这两个估计器。
安娜Drewek
因果发现的线性非高斯无环模型 玛洛Maathuis 2010年7月
文摘:在许多应用中,发现变量之间的因果关系是重要的。Shimizu et al.提出了一种从线性非高斯无环模型的观测数据中发现因果结构的方法,简称为LiNGAM(见Shimizu et al. 2006)。我们分析了他们的方法,并通过近似高斯分布与t分布的经验检验非高斯性的严格性。此外,我们将LiNGAM算法的性能与PC算法进行了比较(Sprites et al. 2000)。最后,讨论了两种算法的组合(Hoyer et al. 2008),使检测任意分布的线性无环模型中的因果结构成为可能。
丽塔Achermann
质子泵抑制剂对氯吡格雷治疗的影响 沃纳Stahel 3月- 2010
文摘:在本研究中,研究了氯吡格雷与质子泵抑制剂(PPI)之间的相互作用。PPI可能降低氯吡格雷的抗血小板功能,增加二次心肌梗死的风险。同时服用这两种药物的患者发生此类事件的风险更高,但这是由于个人风险因素还是由于氯吡格雷的效果降低,这是一个悬而未决的问题。本研究旨在利用健康保险数据评估两种药物之间相互作用的影响。应用各种方法对观测数据中的混杂因素进行调整,并评价了图论与概率论相结合的新发展。研究人群包括4 623例处方氯吡格雷患者,首次使用氯吡格雷前住院时间不超过30天,并有Helsana健康保险。因心脏事件导致的住院和死亡被作为临床终点来评估质子泵抑制剂处方是否与再住院的高风险相关。基于知识构造了一个图,从理论上推导出效果是否可识别。因果推理规则应用于这个基于知识的图表表明,当使用观察数据时,效果是可识别的。根据数据估计的图表并没有推翻这些发现。根据图示定义的介入分布计算PPI对氯吡格雷的影响。 Also standard statistical techniques, a Cox proportional hazard regression, was applied, once with covariates to adjust for confounding and once with a propensity score. An instrumental variable approach was not feasible, since no instrument was found.Patients with concomitant use of clopidogrel and proton pump inhibitors had a higher risk for rehospitalization due to a cardiac event by a factor of 1.33 (CI 95%: 1.10, 1.61) compared to patients with no prescription for PPI. Important for the analysis was, that some patients had PPI administred together with clopidogrel but had no prescription before. Treatment guidelines recommend PPI to prevent stomach bleeding, a side effect caused by clopidogrel. It is assumed that this patients had no higher individual risk for a recurrent myocardial infarction compared to patients with no PPI prescription. Hence, the patients can be compared to patients with no PPI prescription before and during the study phase to estimate the effect. Comparison of the baseline characteristics for 23 drug groups, as well as age and gender revealed only minor differences. Results calculated based on the interventional distribution defined by the graph showed similar results compared to Cox regression. Finally, the propensity score used as a stratifier in a Cox proportional hazard regression yielded similar results either. As alternative treatments for PPI are available, patients should not take these two drugs together.
阿明Zehetbauer
一个统计利率预测模型 沃纳Stahel 3月- 2010
文摘:

2009

学生 标题 顾问(s) 日期
尼可莱塔Andri
利用因果推断识别ICF的核心集 玛洛Maathuis 2009年9月-
文摘:世界卫生组织(世卫组织)出于时间管理和复杂性等不同原因,非常希望将icf目录缩减到更小的项目集。在此背景下,我们分析了世界卫生组织关于风湿/关节炎和慢性广泛疼痛的两组数据集,这些数据集由icf目录中的变量组成。对于这个变量选择过程,我们使用Maathuis, Kalisch和Bühlmann的方法,它们使用图估计技术与称为后门调整的因果方法相结合。我们展示了在哪些条件下这种方法也可以应用于一分为二的数据集,以及如何处理变量之间的相互作用。估计的显著性是使用排列测试和Meinshausen和Bühlmann提出的稳定性选择方法进行评估的。最后,讨论因果结果并与关联结果进行比较。
西蒙Figura
瑞士地下水对气候强迫和气候变化的响应现有历史仪器记录的初步分析 Werner A. Stahel
罗尔夫Kipfer
大卫·利文斯通
2009年9月-
文摘:过去对地下水长期质量的研究很少。本文采用地温作为地下水水质的指标。分析了8条河流补给和6条雨水补给地下水的温度测量结果。一些数据集还包含水位、弹簧流量、抽水量和氧气浓度的记录。这些记录的长度从20年到52年不等。用图、趋势和变点试验来描述温度的发展。通过建立相关模型和回归模型,分析了气候强迫对气温的影响以及地下水量变量对地下水温度的影响。还简要分析了氧浓度的变化规律。近30年来,大部分河流补给地下水的温度上升了1-1.5℃。超过一半的变暖发生在1987年至1993年期间。 Results indicate that this warming was due to climatic forcing. The temperature of the rain-fed groundwaters showed small to no increase. Some properties of air temperature development can be recognized in temperature of these groundwaters but a possible response of rain-fed groundwaters to climatic forcing is outweighed by other factors.Measurements of oxygen concentrations were available at 4 sites. Decreasing concentrations at 3 measurement sites are likely caused by higher microbiological activity and lower oxygen solubility as a result of higher temperatures. This theory is contradicted by the increasing oxygen concentration at the fourth measurement site.
卢卡斯Rosinus
Fehlende Werte em算法和套索在hochdimensionaler线性回归 彼得Buhlmann 8月- 2009
文摘:Verschiedene Schätzer für hochdimensionale lineare回归问题mit fehlenden Werten werden vorgeschlagen und untersucht[[?]]。大贝野生mithilife des EM-Algorithmus der beobachtete负对数似然mit- samt Lasso-Bestrafung der回归参数β最小值。拉索-贝斯特拉芬-沃登-回归效率稀疏geschätzt。在模拟研究中,werden die Methoden和verschedenen multivariat normal verteten Modellen untersucht。大不一样,小不一样,小不一样,小不一样。Mit dem EM-Algorithmus widdie逆Kovarianzmatrix K = Σ−1 im似然Sinn最优geschätzt。米德套索贝斯特拉芬werden dann auch die回归参数gut geschätzt, auch bei hohem Anteil fehlender Daten。
菲利普Stirnemann
无与伦比的计数技术:Zum Zusammenhang zwischen Anonymität und统计师Effizienz Werner A. Stahel
b . Jann
8月- 2009
文摘:
鲁道夫Dunki
健壮的Variogrammschätzung健壮的克里格 汉斯·鲁道夫Künsch 8月- 2009
文摘:本文描述了用于地质统计数据分析的鲁棒算法的发展。三个算法在R中实现,每个算法都允许同时估计回归参数和协方差参数。三种算法的结果一致。其中两个是作为r函数包实现的。对核块效应的处理使得两种算法之间有本质区别:第一种算法将核块作为协方差参数估计的一部分。另一种算法将核块作为回归问题的一部分。这在污染数据的分析中具有优势。对50组不同污染程度的模拟进行了分析。所得到的参数估计值与统计上可容忍范围内的真实值一致。唯一的例外是包含污染最严重的数据集。 The estimation of the range parameter was somewhat problematic when performed with small Huber constants i.e. the resulting range displayed a bias upward. In contrast to this, the nugget estimate was improved when choosing a small Huber constant. The algorithm treating the nugget effect as a part of the regression problem returned more stable results in the case of a high degree of pollution. A Huber constant of 1.333 ... 1.666 appeared appropriate in these cases. An increase in stability was also visible in the behaviour of influence functions. The algorithms were applied to data on contamination of soils with Cu in the surroundings of a metal smelter in Dornach. It could be shown that the estimated parameters allowed for kriging estimates which are comparable with earlier analyses. Despite this it was not possible to gain unambigous parameter estimates. The reason lies in the existence of a very flat and extended optimum region. This allows for fitting models with comparable goodness of fit characteristics for clearly distinct parameter sets.
托马斯André劳伯
再保险中的参数风险 彼得Buhlmann 2009年7月
文摘:在本文中,我们考虑了再保险中不同定价区域的参数不确定性。参数风险是指没有正确估计参数的风险。我们主要研究严重性分布中的风险参数。我们区分了描述不确定性的三种不同方式。我们首先将必须用随机变量估计的参数替换掉,然后得到一些分析结果。然后我们研究极大似然估计量,并使用它们是渐近正态分布的结果。对于某些例子,这些渐近结果不够准确。考虑到这些情况,我们将采用自举法对不确定性进行分类。最后,我们将具体说明在实践中经验、曝光和可信度评级中的不确定性。我们将看到一个可信度评级的例子,它通过最小化参数风险来混合经验和暴露评级。
Alessia Fenaroli
基因网络中数量性状的繁殖 玛洛Maathuis 2009年2月,
文摘:基因网络的建立是为了扩展特定生物体中基因功能的知识。这种网络描述了参与同一生物过程的基因之间的联系。McGary、Lee和Marcotte已经将面包师酵母的基因网络(称为YeastNet)与形态性状变异数据集(SCMD)联系起来,并定义了一种给网络中的每个基因打分的方法,以预测它们的活性。研究者通过计算留一交叉验证,用ROC曲线和各自的AUC值检验了YeastNet的可预测性,得到中值0.615。我们对这项研究的贡献包括:考虑到SCMD数据集给出的定量数据的其他评分方法的定义,与McGary等人应用于这些数据的二分法相反;根据每个基因的得分来预测其活动的一些新规则,比McGary等人采用的将得分与截断值进行比较的简单想法要复杂得多。但更有效率;还有一个不同的程序,10倍交叉验证,来计算网络可预测性分析。由于这些变化,我们已经将YeastNet的预测质量提高了5%,其中值现在是0.665。
西蒙Luthy
Merkmalswichtigkeit im Random Forest 彼得Buhlmann 2009年2月,
文摘:在der bioinformatics and verwandten Wissenschaftsgebieten, wie die统计学Genforschung and die genetische流行病学,ist die Vorhersage von kategoriellen Antwortvariablen (wie der Krankheitsstatus eines Patienten oder Eigenschaften eines Molek) einerseits und die verl´ässliche相关的Merkmale andererseits, eine witchtige Aufgabe。在der Genforschung enthalten typische Datens ' ätze百倍之多的gartausende von Genen beziehungsweise Merkmalen, doch stehen oftmals verh ältnism assig wenige Beobachtungen, andhand deren man die Vorhersagen und Identifikationen machen will, zur Verf ügung。Der Random Forest-Algorithmus l] öst dieses Problem sehr gut。In dieser Arbeit m] öchten wir In einem ersten Schritt die Entstehung eines Entscheidungsbaumes, mit dessen Hilfe ganze vorhersaint - w] älder {sogenannte Random Forests{generiert werden, erkl] ären。äutern kurz die Vorgehensweise bei der erzeeugous eines solchen Waldes und definieren die permutierte Fehlerfreiheit(英文)排列精度重要性)als in Mass f ' ur die Merkmalswichtigkeit。在einem zweiten Schritt weisen wir auf die problem - k hin, die auftritt, wenn man die permutierte Fehlerfreiheit auf Datenmengen mit stark korrelierenden variable oder mit variable, die sich In der Anzahl ihrer Kategorien unterscheiden, anwenden m´öchte。Wir pr] äsentieren den Lösungsvorschlag nach Strobel等人(2007),die einen anderen算法zur Erzeugung des Waldes繁殖。Wir f′ühren zwei weitere Masse f′ür die Merkmalswichtigkeit ein, zeigen anhand von Simulationen ihr Verhalten auf verschienen datenmoellen und vergleichen sie der permutierten feherfreiheit。在随机森林中,在随机森林中,在随机森林中,在随机森林中,在随机森林中,在随机森林中,在随机森林中,在随机森林中,在随机森林中。
帕特里克穆勒
噪声高斯模糊的盲反褶积 莎拉·范德吉尔 2009年2月,
文摘:盲反褶积是一个具有一个或多个未知参数的逆问题。如今,反卷积的一个更常见的实际应用是在图像分析中,它被用来确定如何恢复模糊的图像。然而,为了恢复原始图像,我们首先必须估计图像被模糊的未知参数。在过去的几年里,这个话题引起了极大的关注,产生了大量的研究。本文从理论和实践两方面对盲反褶积进行了研究。另一方面,我们提供了必要的工具,我们将利用来提高模糊和噪声图片的质量。我们的结果产生了算法计算估计,如果上述未知。的applicability of the explored techniques then is demonstrated by means of several practical examples.The thesis is concluded by a brief qualitative analysis of the limits of deconvolutionwith regard to image restoration. To this end we show that the process isill-conditioned. Thus, it might be at best inefficient, but at worst impossible, to retrieve the original picture from a blurred one.

2008

学生 标题 顾问(s) 日期
迭戈科伦坡
等张回归拟合优度检验 玛洛Maathuis 2008年7月
文摘:我们研究了Durot和Tocquet(2001)的工作,他们提出了假设H0:“f = f0”与复合替代Hn:“f != f0”的新检验,假设真回归函数f在[0,1]上单调递减。检验统计量基于f的等张估计量fn与给定函数f0之间的l1距离,由于该距离的中心和归一化版本,在零假设H0下是渐近标准正态分布的,前提是给定函数f0满足某些规律性条件。研究等张估计量的渐近正态性的主要目的在于研究其在替代Hn: " f = f0 + cn"n "下的渐近幂。其思想是研究cn的最小收敛速率,使检验具有规定的渐近幂。Durot和Tocquet表明,如果“n不依赖于n”,这个最小速率为n−5/12,如果“n依赖于n”,则为n−3/8。我们的贡献是对模型和主要结果的更详细的解释,以及在证明中插入一些额外的特殊步骤。为了在Durot和Tocquet等模拟中验证这些理论结果,我们编写了新的R代码。也就是说,在f0为线性的情况下,我们进行了模拟研究,比较了该检验的威力与似然比检验的威力,并将这些模拟结果与Durot和Tocquet的结果进行了比较。此外,我们对Durot和Tocquet没有处理的另一种测试提出了额外的模拟,我们将看到它总是比他们研究的最强大。最后,我们在给定单调函数f0为二次函数的情况下进行了新的模拟研究。
阿兰•韦伯
阿尔卑斯山脉未来季节性降水和温度的概率预测 汉斯·鲁道夫Künsch 2008年7月
文摘:这项工作提出了未来(2071-2100年)阿尔卑斯山季节性降水和温度的概率预测。这些预测结合了来自不同数值模拟的气候预测,采用贝叶斯集合方法。众所周知,这些气候模拟存在系统误差,应该予以考虑。不幸的是,模拟是由边界条件驱动的,这与上个世纪的边界条件非常不同。这是一个问题,因为在类似的边界条件下,没有来自过去的可比数据来估计气候模式的偏差。有必要依赖那些很难被证明是对是错的假设。最近,克里斯托夫·布瑟(Christoph Buser)指出,对阿尔卑斯山季节温度的预测有两个合理的假设。在这项工作中,我们比较了同样两种假设对降水的预测。此外,将其中一个相应的贝叶斯模型推广到预测降水和温度的二元分布。
帕特丽夏阻碍
加性等张回归 莎拉·范德吉尔 3月- 2008
文摘:在这篇硕士论文中,我们研究了一个或多个协变量的等张回归模型。我们将首先介绍使用池相邻违例算法(PAVA)计算的一维回归问题。我们将把回归问题扩展到多个协变量,并假设一个可加模型。这些函数将用经典的后拟合估计器进行估计。我们比较了后拟估计器和oracle估计器,并讨论了它们可以通过对异构数据应用核平滑器来进行平滑估计。通过使用对数凹核,保证了核平滑器的单调性。我们将研究加性等张回归问题的另一种基于增强的方法。将该函数展开为基函数的和,并采用分分量增强算法。
曼努埃尔·科勒
稳健统计:稳健线性回归的检验 沃纳Stahel 3月- 2008
文摘:使用统计方法分析数据意味着将现实分解为一个数学框架,一个模型。通常这个模型是基于强大的假设,例如正态分布的数据。经典统计学提供了完全适合所选模型的方法。但在现实中,模型假设通常只成立大约。异常和不真实的假设可能使统计分析变得无用。稳健统计的目标是基于较弱假设的方法,因此允许与经典模型的小偏差。然而,鲁棒统计并不局限于仅使用鲁棒估计方法。它还扩展到用于进行推理的方法。在过去,并没有太多的研究关注稳健的测试。在本论文中,我们研究了两种最先进的稳健回归程序的推理质量。 We then propose a designadapted scale estimator and use it as part of a new robust regressionestimator, the MMD-estimator. This new estimator improves the quality ofrobust tests considerably.A simulation study is performed to compare the performance of thementioned regression procedures in combination with various covariancematrix estimators. We found large differences between the testedmethods. Some methods were able to approximately reach the desired levelin the corresponding tests for most tested scenarios while othersproduced estimates that were only useful in specific high samplesettings. We infer that the covariance matrix estimator needs to becarefully selected for every new scenario.
菲利普Rutimann
一维线性中的变量选择,Modellen mittels schrumpfvariant des pc算法 彼得Buhlmann 3月- 2008
文摘:在diesel Arbeit geht es um变量选择在一维线性模型。大足鸟德安萨茨冯教授彼得Bühlmann和马库斯卡利什basierend auf dem pc -算法übernommen。Dieser Ansatz win der Arbeit dahinghend verändert, dass die Korrelationen, statt mit dem最大似然Schätzer, mit verschiedenen Schrumpfschätzern berechnet werden。随机变化的pc -算法-云计算- roc - plot和云计算-云计算-标准变化-云计算。Des Weiteren在diesel Masterarbeit um dimensionsreduction。Diese wids verwendet um die尺寸der hochdimensional alen linear模型zu verringern。他是我的英雄,他是我的英雄,他是我的算法的变体。Somit kam die Idee auf, die dimensionsreduction auh im Falle des robust pc - algorithm zu verwenden。每个人都有可能死得更好结果会更好。
布鲁诺Gagliano
离散观测随机波动率模型的渐近理论 莎拉·范德吉尔 2008年2月,
文摘:本文研究了离散观测随机波动率模型的参数估计问题。主要的问题是给出一个一般的方法估计未知参数从一个离散的股票价格的观察集。介绍了最小对比和估计函数两种估计方法,并证明了在一定的假设下,所得到的估计量是一致的和渐近正态的。最后,进行了一系列仿真,验证了研究结果,并将其应用于实际库存数据。
桑德拉·康尼锡
分析von Skisprungdaten 莎拉·范德吉尔 2008年2月,
文摘:在我们的工作中,在我们的工作中,在我们的工作中,在我们的工作中。模型线是回归模型。大北zeigt sich wie erwartet, dass Wind, Anlaufgeschwindigkeit and Gewicht die Weite eines springs beeinflussen。Für eine detailliertere分析werden Verallgemeinerungen des linearen模型。inbesondere das gemeschte Effekte model zeigt, dass es springerspeziefische Effekte (wie etwa das Fluggefühl) gibt;weiter威模等音回归betrachtet sowie die Möglichkeit, mittels多尺度测试模等音einer Funktion zu überprüfen。Da insbesondere der Wind immer wieder Wettkämpfe mitzubestimmen scheint, wild sein Einfluss durch Messungen and weiteren Stellen detaillierter untersucht。伟大的英雄,伟大的英雄,伟大的英雄,伟大的英雄。Eine weitere offene fragage war, ob Podestplätze beider Junioren Weltmeisterschaft ein indicator für spätere Erfolge sind。达斯·埃本索·维勒·贝斯皮埃勒für我们的假设,战争安德斯·贝尔登·沃厄格亨登恩特苏纯根·基恩直觉安特沃特·沃汉登。 Die Natur der Daten macht das Testen schwierig, daher wird wiederum eine Regressionsanalyse gemacht. Mathematisch schwierig zu beurteilen ist die Frage, wann Punkterichter, die den Sprung subjektiv bewerten, parteiisch sind. Eine mögliche Beschreibung der sehr komplexen Situation liefert das Gemischte Effekte Modell.
弗朗西斯科·橘黄色
波动率估计器的世界 莎拉·冯·德吉尔 2008年1月-
文摘:本文研究了资产收益过程波动率的估计问题。主要的关注点是给出一个如何非参数和有效地估计波动率的总体概述。首先,我介绍了随机理论的基本概念和一个特殊的和不寻常的极限定理,我将在整个论文中使用。然后,我处理了几个波动率估计器,从最简单和最糟糕的一个,所谓的实现波动率(RV)估计器,到目前为止最好的估计器,所谓的多尺度实现波动率(MSRV)估计器,它以n-1/4的速率收敛到真实波动率。最后,在最后一节中,我们考虑微观结构作为潜在证券价格的任意污染,通过马尔科夫核Q。主要结果是,在光滑条件下,两尺度实现波动率(TSRV)对污染Q的形式是稳健的。

2007

学生 标题 顾问(s) 日期
索尼娅Angehrn
在Sicherheitssystemen的随机森林警报信号分类 彼得Buhlmann 8月- 2007
文摘:在diesel Diplomarbeit werden die drei Klassifikatoren logistic Regression, CART and Random Forest auf ihre Verwendbarkeit für einen Erkennungsalgorithmus überprüft,在welchem von verschiedenen Geräuschsignalen bestimmt werden soll, ob sie der Klasse Alarm oder Normal zugehören。这是一个伟大的故事,这是随机森林算法für这是一个伟大的问题。Anschliessend wider dieser Klassifikator anhand verschiedener Szenarien mit einem bestehenden嗯,verglichen算法。Für die Implementierung der klaassifikatoren stehen mehere功能zur Verfügung。在diesel Arbeit wid für den Random Forest- und den HMM-Algorithmus überpfüft, welche Auswahl diesel Features eine möghlichst kleine Fehlerrate ergibt。
莎拉而且
从数据中学习图形:不同算法在组织微阵列实验中的应用比较 彼得Buhlmann 8月- 2007
文摘:在“稀疏列联表的惩罚似然和贝叶斯方法及其在全长cDNA文库中的应用”(Dahinden, Parmigiani, Emerick和Buehlmann, 2007)中介绍了一种从数据中学习网络结构的新算法(logilasso)。主要思想是通过在对数线性模型中进行模型选择来研究变量之间的相互作用。在这篇硕士论文中,其他一些图形模型拟合算法与logilasso进行了比较。所选择的算法是PC算法、max - min - hill - climb (MMHC)算法和贪婪等价搜索(GES)算法。它们都基于不同的方法来拟合图形模型。给出了这些方法,并对算法进行了描述。它们的性能,就其重建图形的能力而言,是在模拟数据上进行测试的。该算法也应用于肾细胞癌数据,以说明这种算法的典型应用领域。
罗伦萨Menghetti
密度估计,反褶积和随机波动模型 莎拉·范德吉尔 8月- 2007
文摘:随机波动率模型包含在离散时间实例下观察到的随机波动率过程,间隙消失,间隙的密度有待估计。利用反卷积核密度估计器估计基于平方过程对数的波动率密度。由于误差密度超级平滑,收敛速度非常慢。本文研究了估计量的偏差和方差的理论和经验行为。实证研究表明,考虑带宽小于理论带宽,并证实收敛速度较慢。
乔凡尼Morosoli
Optimale Anpassung einer Portfolioschadenhöhenverteilung an ein individuelles Risiko 彼得Buhlmann 8月- 2007
文摘:在der Einführung wid das Ziel diesel Diplomarbeit erklärt und werden die zur Verfügung stehenden Schadendaten präsentiert。Grundsätzlich最好的不稳定的生活方式für个人的死亡和死亡Portfolioschadenhöhenverteilung。Im Kapitel 2 wdas问题数据配件分析师;mit anderen Worten, gegeben eine Stichprobe von Schadenhöhen, versucht man eine geeignete vertelung zu finden, welche die gegebenen Schäden erzeugen könnte。在我们的世界里,在我们的世界里,在我们的世界里,在我们的世界里,在我们的世界里,在我们的世界里,在我们的世界里,在我们的世界里,在我们的世界里,在我们的世界里,在我们的世界里。Im driitten Kapitel benützt man den Chi2-Test um eine Anpassung einer portfolio overteilung an ein ein individuelles Risiko zu bestimmen。Diese Anpassung hängt aber stark von den gewählten Signifikanzniveau ab;Daher,我4岁。Kapitel analysieren and Problem der Wahl eines geeigneten Signifikanzniveaus, indem wir eine Art von“可信度方法”verwenden。我想说的是,这是一个美妙的世界für eventuelle zukünftige Entwicklungen。
尼科洛瓦伦蒂
形状约束下的回归和期权价格模型 莎拉·范德吉尔 8月- 2007
文摘:许多类型的问题都与识别现实世界中有意义的结构有关。包含顺序和不等式的结构通常是有用的,因为它易于解释、理解和解释。在许多情况下,经济理论只限制变量之间关系的方向,而不是它们之间关系的特定函数形式。设c(X)表示看涨价格是行权价格X的函数。根据无套利原则,c是X的一个凸递减函数,即它满足一定的形状约束。可以认为,经济理论实际上没有对c施加其他限制,而状态价格密度的估计应该只使用这些形状限制(以及一阶和二阶导数的一些界限)。进一步的平滑假设或参数假设可能是不合理的,并具有错误指定国家价格密度的潜在风险。我们的工作包括研究这种形状限制下的估计。我们首先考虑单调回归函数估计,即所谓的sotonic回归问题。其次,分析了凸回归估计问题。在此基础上,建立了小样本下渐减凸呼叫定价的非参数估计量。
恩里科伯克
片对片实验的统计分析 彼得Buhlmann 2007年7月
文摘:随着人类基因组计划的结束,现代生物学这门新兴学科面临的挑战是确定新特征基因在人类和模式生物中的作用。这一新的序列数据首次提供了一个现实的机会,可以将特定组织和细胞类型的功能(和功能障碍)与其中表达的基因的活性联系起来,从而识别出可以作为治疗靶点的基因和基因产物。目标基因的识别和功能表征的潜在策略将在很大程度上依赖于在组织和细胞水平上对基因表达进行高通量分析的能力。基因的表达是由每个基因特有的蛋白质调控的,这些蛋白质将自己与目标基因结合,并促进或抑制其转录。近年来,为了研究基因调控机制,改进了两种方法:微阵列实验和片上芯片实验。然而,这些实验所提供的大量数据和由于噪声所带来的不确定性使得对结果的解释变得困难和费力。出于这个原因,人们开发了许多统计方法,试图从这些数据中获得最相关的信息。我们的工作包括修改Motif Regressor,这是一种已经存在的分析微阵列实验数据的方法,并使用这种新算法来搜索HIF1-alpha的转录因子dna结合基序,这是一种在缺氧条件下参与基因调控的蛋白质。结果表明,我们的算法快速、有效,不需要进行大量的生物学实验,并为未来生物学研究的方向提供了重要的建议。
Jurg Schelldorfer
多变量分析线性毒副产物 沃纳Stahel 2007年7月
文摘:在德国的数学数学的数学线是Mischung von Beiträgen verschiedener Quellen近似werden。在diesem Zusammenhang ist die Aufgabe der multivariaten statistical, mit geeigneten Verfahren die Anzahl der vorhandenen Quellen, deren Emissionsprofile sowie deren Aktivitäten (In Abhängigkeit der Zeit) zu schätzen。在diesel Arbeit präsentieren wir Verfahren, wie wir die Kenntnisse über mögliche vorgegebene Quellenprofile benutzen können, um die Datenanalyse bei einem linearen Mischungsmodell zu verbessern。
米利暗Blattmann-Singh
基于函数梯度下降算法的单变量金融时间序列非参数波动率估计 彼得Buhlmann 3月- 2007
文摘:
克劳迪娅Soldini
维数回归的变量选择:枯草芽孢杆菌合成利巴黄素 彼得Buhlmann 3月- 2007
文摘:劳动之歌interdisziplinären工程之歌。这是一种科学,是一种科学,是一种科学。达弗尔stützt男人在那里,在那里,在那里,在那里,在那里,在那里。Da man mit einer grossen Anzahl von Genen zu tun hat, werden Regressionsmethoden angewendet, die für hochdimensionale problem geeignet sind, und variablselektieren können。Die Gene werden als Prädiktoren und Die Menge des produzierten维生素als Zielvariable betrachtet。Die Experimente wurden unter verschiedenen Bedingungen durchgeführt,所以dass man es mit einem nicht-homogenen Datensatz zu tun hat。Die Menge des produzierten维生素variert在Abhängigkeit von den Bakterienstämmen, Die untersucht wurden, und vom Zeitpunkt, zu dem Die Messungen genome wurden。爱的灵魂,爱的灵魂,爱的灵魂,爱的灵魂,für爱的灵魂。Zu diesem Zweck werden统计测试durchgeführt, sowohl auf den einzelnen Genen als auh auf Gruppen von Genen。Diese werden mit Hilfe einer Clusteranalyse gebildet, wobei als Ähnlichkeitsmass die correlation verwendet wid。
尼古拉•施
统计sche Modellentwicklung für nichtinvasive Blutzuckermessung mittels Sensoren 沃纳Stahel 3月- 2007
文摘:(温度,施魏斯,德国)beeinträchtigt。嗯,那是什么意思? Störparameter那是什么意思,那是什么意思?Ziel diesel Arbeit es, mittels einer linear Regression and verschiedener变量-选择- methoden möglichst allgemeingültige Modelle zu entwickeln, welche die Glukose-Konzentration in Abhängigkeit der Impedanzsignale and anderer einflusfaktoren vorhersagen。在einem ersten Teil der Arbeit kommen die klassischen selekons - methoden Schrittweise-Vorwärts, Schrittweise-Rückwärts和“所有子集”zum Zuge。大死亡erklärenden变量巨大Messungenauigkeiten aufweisen, werden diese in einem nächsten Schritt geglättet。Im Verlaufe der Arbeit zeigt sich, dass gewöhnliche选择的诗和Cp的极端überangepassten Modellen führen。在einem entscheidenden Schritt watiativ zum AIC和Cp在一个die spezielle Struktur der Daten besser angepasstes Kriterium vorgeschlagen。Mit dem neuen Kriterium wsowohl eine自适应套索-,als auh eine Schrittweise-Vorwärts-Selektion durchgeführt。Beide Methoden führen zu sehr ähnlichen und vernünftigen Modellen mit einem R2 von 0.73。Besondere Aufmerksamkeit widum Adaptive-Lasso gewidmet。 Die Analyse zeigt, dass eine datenabhängige Gewichtung im Adaptive-Lasso einen erheblichen Fortschritt gegenüber dem gewöhnlichen Lasso bringt. Da die funktionale Form des Modells a priori unbekannt ist, wird zudem eine Analyse mit dem Namen "Multi Adaptive Regression Splines (MARS)" benutzt. Diese Methode erweist sich aber als ungeeignet.

2006

学生 标题 顾问(s) 日期
马西莫Merlini
维生素生产相关机械鉴定 彼得Buhlmann 2006年9月-
文摘:系统生物学理论interdisziplinäre科学理论,科学理论,生物理论中的组织理论。在diesel Arbeit wid In Forschungsprojekt vorgestellt, das die production eines speziellen维生素durch einen microkroorganisms untersucht。Man möchte die wesentlichen Mechanismen identifiieren, die am Fermentierungsprozess teilnehmen, um die production zu optimieren。
迈克尔Amrein
Parameterschätzung在zeitstetigen Markovprozessen 汉斯·鲁道夫Künsch 8月- 2006
文摘:在diesel Arbeit geht es um Parameterschätzungen在einer beestimmten klase von zeitstetigen,同质Markov-Ketten, die sich besonderere zur Modellierung von gewissen chemischen Reaktionen oder Systemen ausder population dynamik eignet。在《我的世界》中,我的世界被洗劫了,我的世界被毁灭了。Die Übergangswahrscheinlichkeiten zwischen je zwei Observationen werden mit Hilfe von Poisson-Verteilungen approximate。Die Güte diesel Näherung wid durch das Einführen von zusätzlichen Zeitpunkten (und latenten Daten) zwischen den eigenentlichen Beobachtungszeiten verbessert。Zur近似Bestimmung des Maximum-Likelihood-Schätzers wd der EM-Algorithmus gepart mit Monte-Carlo- beziehungsweise Markov-Ketten-Monte-Carlo-Methoden verwendet。Daraus resultieren schlussendlich zwei Algorithmen, die an verschiedenen Beispielen, insbesondere an künstlichen Datensätzen, getestet werden。
安德里亚Cantieni
在Umweltwissenschaften中,基于后验Verteilung的效率逼近für复杂模拟模型 汉斯·鲁道夫Künsch 8月- 2006
文摘:
埃尔玛Rashedan
乘用车排放因子模型与行驶周期特性相联系 沃纳Stahel 2006年7月
文摘:
卡门·卡萨诺瓦
Vorhersage von Partikelgrössen-Verteilung anhand Bildananlyse-Daten 沃纳Stahel 3月- 2006
文摘:
Andreas Elsener
量子化学数据的统计分析使用通用XML/CML档案 彼得Buhlmann 3月- 2006
文摘:
西蒙·埃尔默
hochdimensinalen中的稀疏Logit-Boosting Räumen 彼得Buhlmann 3月- 2006
文摘:Das Ziel meiner Diplomarbeit ist es, Das Klassifikationsverfahren sparllogitboost zu entwickeln und dies in R zu implementieren。Weiter soll as Verfahren auf simierte und natürliche Daten angewendet werden and die Vorhersagegenauigkeit mit anderen Klassifikationsverfahren verglichen werden。

2005

学生 标题 顾问(s) 日期
罗马Grischott
健壮的地质统计的Markovmodellen am Beispiel eines Schwermetalldatensatzes 汉斯R. Künsch 2005年9月-
文摘:
迈克尔霍农
分类计算方法和数据计算方法 彼得Buhlmann 8月- 2005
文摘:Die Regressionsmethoden Lasso,放松的Lasso und Boosting werden benutzt, umsowohl simulierte wie natürliche hochdimensionale Daten vorherzusagen und zu klassieren。大贝贝特恩die betrachteten Daten nicht nur ausden erklärenden variablsonondern auh ausderen Box-Cox Transformationen, was die Vorhersagegenauigkeitvergrössern soll。大的变量在那里natürlichen Datensätzen diskret ist, richtenwir unser Augenmerk vor allem auf den Missklassifikationsfehler。Es zeigt sich, dassbei einzelnen Datensätzen durch die Verwendung der Box-Cox Transformationen wohlVerbesserungen der Vorhersagekraft auftreten können, aber häufig auch Verschlechterungen in Kauf genome werden müssen。Im zweiten Teil diesel Arbeit wbeit die correlation der durch die drei Regressionsmethodenausgewählten模型变量的背叛和zu verringern versucht。大贝werdenzwei unterschiedliche Ansätze verfolgt。Als erstes wdurch eine Lasso-ähnlicheMethode, die zusätzliche gewicte im Bestrafungsterm benutzt, die Korrelation zumTeil beträchtlich verringert。在einem zweiten Schritt werden ausden gegebenen变量,Mittelung von Gruppen bestehenend ausstark korrelierten变量neueErklärende konstruiert。Diese werden dann für weitere Klassifikationen benutzt。奥奇迪斯方法与变量之间的相关性。耶多克·拉森西奇在伊登附近的地球上的地球上的地球führen在地球上的地球上的地球einerVergrösserung在地球上的地球上的地球。
Stefan Oberhansli
鲁棒性多元检验:基因差异表达 彼得Buhlmann 8月- 2005
文摘:瓦勒姆多重测试?祝你生日快乐,生日快乐Computerunterstützung,祝你生日快乐。Damit wurden Methoden nötig, welche mit so umfangreichen Datensätzen umgehene können - und gleichzeeitig möglichst wenige Fehler machen。Üblicherweise umfassen Datensätze hunderte von Faktoren。Damit wids möglich, ganz verschiedene (eventuell schon vermutete) Zusammehänge zu testen。Weiter erlauben solch umfangreche Datensätze ein exploratives Vorgehen, d.h. man betrachtet die Daten im Prinzip ohne Vorwissen and schaut, welche Zusammenhänge sich aufdrängen。Dieses Vorgehen ist allerdings统计海克尔,达mit einer geschickten Auswahl von Testprozeduren oder vorgängiger "Datenbereinigung" fast beliebige Zusammenhänge "belegt" werden können。Der einschränkende Faktor bei wissenschaftlichen Untersuchungen ist sehr oft das festgesetzte预算。Trotzdem möchte man möglichst viel Information aus den gesammelten Daten erhalten。这是我的秘密,这是试验者的秘密,这是试验者的秘密。 In einem Experiment werden also aus finanzieller Sicht besser mehr Variablen gemessen als das ganze Experiment öfter zu wiederholen. Es gibt dann zwar weniger Beobachtungen, dafür mehr Faktoren, deren Zusammenhänge es zu analysieren gilt. In derartigen Fällen ist es unvermeidlich, sehr viele Tests simultan (Multiple Tests) durchzufähren. Bei der Analyse und Interpretation von Multiplen Tests treten erhebliche Schwierigkeiten auf, welche bei einfachem Testen inexistent sind. Wie diese Schwierigkeiten gemeistert werden können, wird im Verlaufe der Arbeit beschrieben.
Rahel Liesch
挪威云杉花苞的统计遗传学 彼得Buhlmann 3月- 2005
文摘:植物需要遗传变异来应对和适应环境的挑战。了解适应性性状的遗传变异及其形成的力量是进化生物学的主要目标之一。这是一项艰巨的任务,因为大多数适应性性状都是数量性状,即由许多与环境交互的位点控制的性状。本文的目的是(i)分析挪威云杉(Picea abies L)在自然范围内的15个居群内和居群之间的花期遗传变异;(ii)将种群间花期变异与中性基因和候选基因的变异联系起来。前者在选择合适的模型后,通过经典方差分析进行分析。后者是通过估算和计算Wright固定指数(一种种群间分化的测量方法)的置信区间来实现的,另一方面,Wright固定指数是针对蓓蕾和中性或候选基因的。估计赖特固定指数的数量性状的置信区间,如busdet的时间,已经并且可以用许多不同的方法来完成。在一些研究中使用了delta方法,而在另一些研究中则使用了非参数自举法。在几乎所有的研究中,对某一方法的选择都没有进行论证或讨论,当bootstrap被保留时,对特定类型的bootstrap策略的选择也没有保证。因此,我们模拟了几个数据集,并应用了各种方法来找到最合适的方法。 We concluded that either a semiparametric of a parametric bootstrap gave the best results in the case of the spruce dataset. Using a nonparametric bootstrap, sampling over populations and families would definitely be the most adequate way of obtaining a confidence interval. Finally, Wright's fixation index for budset was significatly larger than differentiation at both candidate and neutral loci suggesting strong local adaptation.

2004

学生 标题 顾问(s) 日期
卢卡斯迈耶
extemwertanalyze von Starkniederschlägen 汉斯R. Künsch 3月- 2004
文摘:祖萨门法颂:Klimaveränderungen心中充满美好的愿望,心中充满美好的思想和美好的世界können。在瑞士瑞士极端理论的极端理论的极端理论的极端理论的极端理论的极端理论的极端理论。Wir modellieren die stationenweisen Überschreitungen von genügend hohen Schwellen mit einem 2-dim。泊松Punktprozess und nicht-stationären Modellen für die Lokations und Skalenparameter。我们的发现是这样的für我们的立场和趋势是积极的。嗯die einzelnen Trendschätzungen zu kombinieren, verwenden wir ein类推zu einem hierarchischen模型。Die räumliche分析结果的异常,Die eine Kombination der Messstationen erschwert。Wir untersuchen deshalb alternative Ansätze, hauptsächlich um saisonale Besonderheiten besser zu modellieren。在巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎巴黎。
Andreas Greutert
Methoden zur Schätzung der Clusteranzahl 彼得Buhlmann 3月- 2004
文摘:imzusammenhang mit microarray - experimental werden laufneue Methoden der cluster - analysis entwickelt。Drei solche Methoden werden im技术报告von Fridlyand und Dudoit (citeyear{克莱斯特})vorgestellt。友好的和我的友谊。ersten möchten sie durch die重采样Methode cleest die Clusteranzahl schätzen。这是我的错,我的错,我的错。嗯die Genauigkeit zu verbessern, schlagen sie zwei Bagging Methoden für Clusteralgorithmen vor。Wir werden uns mit dem - algorithmus auseinander setzen。Damit wir den Algorithmus verstehen and anwenden können, ist einige theory not enddig。Im Kapitel 2开始wir mit einer kurzen Einführung在die聚类分析。Weitere Methoden, die die Clusteranzahl schätzen, werden im Kapitel 3 vorgestellt。在den Kapiteln 4,5和6 wid克莱斯特mit seinen参数eingeführt。Das Ziel dieser Diplomarbeit besteht darin, den clest-Algorithmus zu verstehen und wenn möglich ihn zu verbessern. Dazu war es notwendig den Algorithmus clest in R zu implementieren (siehe Anhang B). Das grosse Ziel clest zu verbessern, wollen wir erreichen, indem wir die verschiedenen Parameter von clest verändern. Eine weitere Aufgabe besteht darin, ein Mass für die Sicherheit der Clusteranzahl-Schätzung zu konstruieren (siehe Kapitel 7). Weiter sollen auch bestehende Schätzmethoden mit clest verglichen werden.
凯瑟琳施耐德
Mischungsmodelle für evozierte Potenziale在Nervenzellen 汉斯R. Künsch 3月- 2004
文摘:diesel Arbeit liegen 18 Datensätze神经生物学家Daten über evozierte potential zugrunde。Jeder Datensatz enthält振幅和噪声,wobei die振幅和噪声die evozierten Potentiale darstellen。大神经生物学大数据,werden在Kapitel 2 zuerst einige biologische Begriffe und Abläufe erklärt。《在大草原上的孩子》,《在荒野上的孩子》。Nebst einer ersten Übersicht über die Daten wild zudem auf die quantale假设eingegangen, da sie bei der Auswertung der Daten eine wesentliche Rolle spielt。ZielsetzungAn die einzelnen Amplituden-Werte der Datensätze werden Mischverteilungsdichten angep助剂。大足信德verschiedene Modelle zu betrachten und gleichzeeitig ist zu überprüfen, welches model am best sten dafür geeignet ist。Als erster Schwerpunkt werden Mischungsmodelle betrachtet, die von abhängigen Daten ausgehen。Deshalb muss vorher geprüft werden, ob überhaupt Abhängigkeiten zwischen evozierten potential alen bestehen。坠落的地方,那是我们的天堂,那是我们的天堂,那是我们的天堂Schätzungen那是我们的天堂。Der zweite Schwerpunkt wif auf die quantale假设geelegt。男人möchte智慧,有潜力的人Überlagerung有潜力的人zufällig ausgeschütteten Anzahl量子模型lieren lassen oder nicht。
Jeannine Britschgi
分析einer brustkrebsstudy 汉斯R. Künsch 2004年2月,
文摘:法国肿瘤医院,für法国肿瘤医院,eineÜberlebenszeitanalyse durchzuführen。"肿瘤之路" "病人之路" "肿瘤之路"Wir möchten für die patientinen ein gutes predict - model konstruieren, das die Zeit eines Rückfalls des tumor voraussagt。柴油机模型怪异的eine功能盛。Wir wollen herausfinden, welche der vielen erklärenden变量不enddig sinind, um diese Funktion gut zu characterakterisien。Esstellt sich die fraage, ob die Angaben über die淋巴结瘤,肿瘤的手术转移和预后模型发现拉森。

2003

学生 标题 顾问(s) 日期
科琳Dahinden
Schätzung德国农业和农业的发展 彼得Buhlmann 11月- 2003
文摘:Im Kapitel 2:微阵列Prädiktoren werden verschiedene Methoden vorgestellt, welche wir später verwenden, um Microarrays zu klassifizieren。Im Kapitel 3 werden Schätzungen des Vorhersagefehlers einführt。Im Kapitel 4: Schätzung der Vertrauensintervalle werden Schätzungen der Standardabweichungen für die Im Kapitel 3 eingeführten Schätzer besprochen。在den Kapiteln Kapitel 5-7 werden die verschiedenen Schätzungen für die Fehler und die Vertrauensintervalle and hand von simulation miteinander verglichen。Diese Erkenntnisse werden im Kapitel 8: Vergleich von Microarray Prädiktoren mit und ohne klinische变量angewandt。Im Kapitel 9:流行的wivalidierung die gleichnamige技术eingeführt und angewandt auf verschiedene微阵列Prädiktoren um die Relevanz der klinischen变量zu bestimmen。在diesel Diplomarbeit habe ich serhr viel simliert and大数据分析与数据分析Fehlerschätzer在der statistical software R selbst programmiert中。Den Code der witichtigsten program findet man unter /u/dahinden/Diplomarbeit/RCode。
Christof出生
Konstruktion von Vorschlagsdichten für Markovketten Monte Carlo mit Sprüngen zwischen Räumen unterschiedlicher维度 汉斯R. Künsch 2003年9月-
文摘:der vorliegenden Diplomarbeit es darum, Vorschlagsdichten für Markovketten Monte Carlo zu konstruieren, wobei vor allem im ar - model gearbeitet wurde。布鲁克斯,朱迪奇和罗伯茨(2003)。Es sollte der Vorschlag im Diskussionsbeitrag von H.R. Künsch untersucht werden, der eine sorgfältiger ausgesuchte Sprungfunktion empfiehlt als die naheliegende, mit der im纸齿轮beitet wurde。Zu diesem Zweck sollten auch模拟统计软件R durchgeführt werden。在我们的世界里,在我们的世界里,在我们的世界里für arch - model and Gauss'sche graphische model geschictere Sprungfunktionen zu finden sindals die fenenichthen。大贝sollte mit der Kullback-LeiblerDistanz gearbeitet werden。
Christoph布塞尔
differalgleichungen mit zufälligen zeitvariierenden参数 汉斯R. Künsch 3月- 2003
文摘:生物学Prozesse werden mit differential leichungen beschrieben。Die Annahme, dass Die参数zeitlich不变信德,erleichtert das Lösen und wid in der Praxis oft getroffen。在Kauf genome, solange sie nicht zu gross信德,Die dadurch entstehenden systematischen Fehler werden。在unserem Beispiel haben wir drei Grössen: die Biomasse (Bakterien), das Substrat (Nahrung) und den Sauerstoff。我们是handelt sich um Konzentrationen。这是我的歉意。Wir rekonstruieren die anderen Grössen aus diesen Messdaten。大足有水有水Glätter,海有水有水berücksichtigt。Wir geben die Konstanz der Parameter auf and modellieren diese mit zeitvariierenden randomtischen Prozessen, genauer gesagt mit mean-reverting Ornstein-Uhlenbeck Prozess。达斯模型野生柔韧器。 Der Ansatz ist bayesianisch. Wir suchen nicht die besten Parameter, sondern konstruieren die bedingte Verteilung der Parameter, gegeben die Sauerstoffmessdaten. Das ist nicht in geschlossener Form möglich. Wir verwenden den Metropolis-Hastings Algorithmus und erzeugen eine Markovkette, welche asymptotisch die gewünschte Verteilung hat. Um zweidimensionale Vorschlagsdichten zu umgehen, arbeiten wir mit dem Gibbs-Sampler, der jeweils einen der beiden Parameter wählt, der neu vorgeschlagen wird.In der ersten Simulation nehmen wir im Metropolis-Hastings Algorithmus bedingte Orn-stein-Uhlenbeck Prozesse als Vorschläge für die neuen Parameterwerte. Die Daten werden nicht in die Vorschlagsdichte einbezogen. Wir unterteilen das Zeitintervall $[0,T]$ in zufällige Intervalle gleicher Durchschnittslänge und ändern den Parameter nur auf einem solchen Intervall. Das ist notwendig, um vernünftige Akzeptierungswahrscheinlichkeiten zu erhalten.In der zweiten Simulation benutzen wir die quadratischen Abweichungen der Sauerstoffdaten, um in einem Intervall einen Vorschlag zu konstruieren. Die zusätzliche Information reduziert die Varianz der Vorschlagsdichte. Der Rechenaufwand vergrössert sich.Während des Verfahrens sind wir mit einem Problem konfrontiert. Solange Substrat vorhanden ist, dominiert der Wachstumsparameter den Sterbeparameter. Dieser Maskierungseffekt erhöht die Unsicherheit bei der Bestimmung des Sterbeparameters im ersten Zeitabschnitt. Die Unsicherheit überträgt sich auf die Hauptprozesse. In beiden Simulationen gelingt es meist gut bis sehr gut, die Verteilungen aller Prozesse zu bestimmen. Probleme des Filters, der nur Messwerte der Vergangenheit verwendet, werden durch den Glätter behoben. Der Glätter bringt mehr Daten in das Verfahren und ist dem Filter vorzuziehen.Der Algorithmus ist rechenintensiv. Einerseits ist zum Erreichen der stationären Verteilung eine lange Einschwingphase erforderlich. Andererseits verringern wir die Abhängigkeiten in der Markovkette, indem wir nicht jedes Element verwenden. Daher ist eine grosse Anzahl Schritte im Algorithmus notwendig.Es gibt Varianten der Vorschlagsdichte. Wir verzichten auf den Gibbs-Sampler und arbeiten zweidimensional. Möglicherweise wird so das Zusammenspiel der beiden Parameter besser wiedergegeben und der Maskierungseffekt kompensiert.Ein anderer Algorithmus versucht, mehr Information aus den Sauerstoffabweichungen zu gewinnen, indem deren Vorzeichen berücksichtigt wird.
埃里克André格拉芙
Vorhersage des Luftqualitätsindexes 汉斯R. Künsch 3月- 2003
文摘:在柴油Arbeit geht es um die Entwicklung eines型号für die Vorhersage eines Luftqualitätsindexes (LQI)。柴油LQI beschreibt在Worten den Zustand der Luft。Der LQI wid stündlich auf dem Internet publiziert(动词|www.in-luft.ch|).Der Luftqualitätsindex LQI zeigt die wiirkung Der aktuellen Luftqualität auf die Gesundheit an。(Ozon O3, Stickoxide NOx, stickstoffmonoxno和Feinstaub PM10) werden Zahlen erzeugt。Diese geben Auskunft über die Konzentration der einzelnen Stoffe in der Aussenluft。Der LQI waufgrund dieser konzentration - angaben berechnet und gibt Auskunft über den Einfluss Der Schadstoffe auf das körperliche Befinden。Die Aussage des LQI ist stark generalisiert, sie entspricht aber den heutigen Kenntnissen über kurzfristigen Auswirkungen der Schadstoffe auf den menschlichen有机体。Für jeden Schadstoff werden nun Indexstufen von 1 bis 6 zugeordnet在Bezug dessen Konzentration。
您的浏览器中已禁用JavaScript