你所在的位置: 首页 > 正文

CMU博士Nature撰文:机器学习要避开这三个“大坑”

2019-08-22 点击:762

AI人工智能研究2天前我想分享image.php?url=0MnlPf0tsq现在,快速成功领域的机器学习环境引发了一系列问题,如纸张实验不足,审查标准不同,以及偷工减料的结果。 CMU博士和谷歌研究员Patrick Riley写了一篇关于自然的文章。根据自己的经验,他们指出了机器学习发展中需要避免的三个“大坑”。它值得开发人员参考。机器学习预测工具正在帮助各个领域的研究人员,例如发现分子的新方法,在分析中发现微妙的信号,提高医学诊断的质量,以及揭示基本粒子的特性。然而,机器学习工具也可能是问题的根源,导致误报,导致盲目的试验和错误。今天的许多算法都非常复杂,以至于它们非常复杂,以至于无法再逐一检查所有参数,也无法确切知道输入的工作原理。随着这些算法的应用越来越广泛,误解,错误结论和“无所事事”的风险变得越来越重要。这些问题并不新鲜。如今,许多机器学习论文未能完成足够的实验,并且审查标准存在许多不一致之处。由于激烈的竞争,一些研究人员会偷工减料并进行必要的检查,以获得他们想要的结果。虽然我们无法预测所有问题,但研究人员应该熟悉并掌握在自己的领域中应用机器学习时发现和避免这些常见问题的方法和实践。让我们以作者的个人经历为例,介绍在Google Accelerated Science团队中使用机器学习分析时遇到的三个主要问题。如何分割数据是一个学习问题

不适当的数据拆分。在建立模型时,研究人员经常将数据划分为训练和测试集。训练集负责“教授”模型,并通过模型对测试集的描述的准确性来评估模型的性能。研究人员通常随机分割数据。但现实生活中的数据很少是随机的。数据可能会随着时间的推移而变化。例如,收集数据的方式发生变化,或者选择收集哪些信息的变化。

例如,在使用机器学习算法筛选新药物的过程中,这些模式隐藏在分子数据集中,因此挑战在于预测分子是否可以有效地被吸收到体内并减少炎症。该预测从筛选分子数据开始,但收集数据的上下文可能与使用机器学习模型的方式不同。例如,您可以对一组公开可用的分子进行建模,然后将该模型用于不同的专有分子集。化学家的注意力经常从某些分子群转移到其他分子,往往过高估计模型的实际性能。这可能导致对错误分子的高期望和浪费时间和金钱。许多人(包括我自己)陷入了这个陷阱。换句话说,您要解决的问题会影响数据的分割方式。为了研究模型如何预测向分子中添加几个原子的效果,测试集中的每个分子都应该为训练集添加不同的原子。如果您想对不同的分子做出良好的预测,那么测试集中的每个分子应该与训练集中的所有分子不同。分割数据的“正确”方式可能并不明显,但仔细考虑和多种方法的实验可以提供更高的可靠性。小心“隐藏变量”:如果不注意,则使模型无效

件都会改变结果。这种“不受控制的”变量在机器学习模型中可能是有害的。

例如,我在Google的团队一直在加州融合创业公司TAE Technologies工作,以优化生产高能等离子体的工艺。我们建立了模型,并试图了解等离子机的最佳设置。我们已经在几个月内运行了数千台等离子机的数据。建模完成后,我们很高兴等离子体的能量会根据给定的设置而变高。但很快,我们发现的预测与我们的假设不一致。image.php?url=0MnlPfJwJF

当我们再次训练模型时,将实验时间作为唯一输入,并获得类似的预测能力。为什么?我们认为我们的第一个模型锁定时间趋势,而不是物理现象。随着实验的进行,机器运行了一段时间,有时却没有。因此,实验时间可以为您提供有关生成的等离子体是否为高能量的信息。这里的实验时间是“隐藏变量”。由于实验的设计,也可以生成隐藏变量。例如,我们团队正在进行的协作项目是“解释”显微镜图像。这些图像包括在测试板上的生物实验阵列,通常是包含细胞和液体的孔的网格。我们的目标是找到具有某些特征的毛孔,例如化学处理后细胞外观的一些变化。但是有机体本身的多样性使得每个实验板略有不同。董事会可能也存在差异。板边缘处的液滴与中心部分不同,例如边缘部分的液体蒸发更强烈,或者板本身可能倾斜,这可能导致结果的差异。机器学习算法可以轻松掌握人们未意识到的变化。例如,模型可以简单地负责确定哪些液滴位于板的边缘。检查这个“隐藏变量”的简单方法是让模型预测其他目标,例如板上的液滴位置,它所在的板,以及显微镜图像来自哪个批次。如果模型成功预测,可能需要对原始实验结果有疑问。要解决此问题,您可以使用多个机器学习模型来检测意外和隐藏变量。其中一个模型预测了主要问题。例如,无论等离子体是高能量还是低能量,无论细胞是健康还是生病,其他模型都用于消除混杂因素。如果后者的预测很强,可能有必要对数据进行标准化,进行进一步的实验,或准备纠正以前的实验结论。无法识别真正的目标:“失去功能”不是灵丹妙药

无法识别目标。机器学习算法要求研究人员指定一个“损失函数”来确定各种错误的严重程度。目前,人们倾向于使用较小的功能集,这些功能往往无法捕捉研究人员真正关心的内容。

例如,我们一直在使用机器学习来帮助求解偏微分方程。这些方程在流体力学,电磁学,材料科学,天体物理学和经济建模中很常见。我们从描述水波如何在一个维度上传播的方程开始。该算法的任务是迭代地预测当前步骤的下一个时间步长。我们使用两种略有不同的训练模型。从损失函数的角度来看,这两个模型同样优秀。然而,实际上,根本无法使用,而另一个则产生接近预期的结果。为什么?因为控制学习的损失函数只考虑下一步的错误,而不是多步骤解决方案的有效性,而我们真正想要的只是后者。在用于糖尿病性视网膜病的机器筛选的机器学习中也出现了不同的目标。对于这种疾病,如果从眼睛后部的图像中早期检测到,则可以有效地治疗。当我们收集数据并让眼科医生根据图像提供诊断时,机器学习工具会预测眼科医生会说些什么。结果有两个问题。首先,眼科医生经常不同意诊断。所以我们意识到我们无法在单一预测上建立模型。也不可能使用“少数多数”集,因为就医疗准确性而言,有时候一些观点是正确的。其次,这种单一疾病的诊断不是我们的真正目标。我们应该问的是:“这位病人是否会去看医生?”因此,有必要将预测目标从单一疾病的诊断扩展到多种疾病。机器学习从业者可以轻松掌握清晰数据和标签的“明显”目标。但是,在算法设置中可能无法解决正确的问题。必须牢记总体目标,否则确切的系统将解决错误的问题。未来如何改进?

首先,机器学习研究人员希望让自己和同事保持更高的标准。对于新的实验设备,您必须完全了解其功能,如何校准,如何检测错误以及设备的限制。机器学习模型和算法也是如此。所谓的“神奇魔法”并不存在,使用工具的人必须了解这些工具。其次,对于不同的学科,需要建立明确的标准。适当的控制,健全性检查和错误的测量会因场而异,需要明确说明,以便研究人员,审稿人和期刊编辑能够鼓励良性的科学行为。第三,需要涵盖有关机器学习科学教育的这些更广泛的问题。虽然已经有一些资源,但我们还是需要做更多的工作。作者的团队经常教授算法和工具,但学生需要更多地了解如何应用他们的算法并保持关于算法本身的适当问题。目前,计算能力,数据和算法的集合正在产生巨大的协同作用。在机器学习的祝福下,它为更多新发现创造了巨大的机会。作为科学界的一员,我们有责任确保充分利用和充分利用这一机会。

性质采用新网络

点击的人点击

收集报告投诉

image.php?url=0MnlPf0tsq现在,机器学习迅速成功的气氛引发了一系列问题,例如纸张实验不足,审查标准不同以及偷工减料的结果。 CMU博士和谷歌研究员Patrick Riley写了一篇关于自然的文章。根据自己的经验,他们指出了机器学习发展中需要避免的三个“大坑”。它值得开发人员参考。机器学习预测工具正在帮助各个领域的研究人员,例如发现分子的新方法,在分析中发现微妙的信号,提高医学诊断的质量,以及揭示基本粒子的特性。然而,机器学习工具也可能是问题的根源,导致误报,导致盲目的试验和错误。今天的许多算法都非常复杂,以至于它们非常复杂,以至于无法再逐一检查所有参数,也无法确切知道输入的工作原理。随着这些算法的应用越来越广泛,误解,错误结论和“无所事事”的风险变得越来越重要。这些问题并不新鲜。如今,许多机器学习论文未能完成足够的实验,并且审查标准存在许多不一致之处。由于激烈的竞争,一些研究人员会偷工减料并进行必要的检查,以获得他们想要的结果。虽然我们无法预测所有问题,但研究人员应该熟悉并掌握在自己的领域中应用机器学习时发现和避免这些常见问题的方法和实践。让我们以作者的个人经历为例,介绍在Google Accelerated Science团队中使用机器学习分析时遇到的三个主要问题。如何分割数据是一个学习问题

不适当的数据拆分。在建立模型时,研究人员经常将数据划分为训练和测试集。训练集负责“教授”模型,并通过模型对测试集的描述的准确性来评估模型的性能。研究人员通常随机分割数据。但现实生活中的数据很少是随机的。数据可能会随着时间的推移而变化。例如,收集数据的方式发生变化,或者选择收集哪些信息的变化。

例如,在使用机器学习算法筛选新药物的过程中,这些模式隐藏在分子数据集中,因此挑战在于预测分子是否可以有效地被吸收到体内并减少炎症。该预测从筛选分子数据开始,但收集数据的上下文可能与使用机器学习模型的方式不同。例如,您可以对一组公开可用的分子进行建模,然后将该模型用于不同的专有分子集。化学家的注意力经常从某些分子群转移到其他分子,往往过高估计模型的实际性能。这可能导致对错误分子的高期望和浪费时间和金钱。许多人(包括我自己)陷入了这个陷阱。换句话说,您要解决的问题会影响数据的分割方式。为了研究模型如何预测向分子中添加几个原子的效果,测试集中的每个分子都应该为训练集添加不同的原子。如果您想对不同的分子做出良好的预测,那么测试集中的每个分子应该与训练集中的所有分子不同。分割数据的“正确”方式可能并不明显,但仔细考虑和多种方法的实验可以提供更高的可靠性。小心“隐藏变量”:如果不注意,则使模型无效

件都会改变结果。这种“不受控制的”变量在机器学习模型中可能是有害的。

例如,我在Google的团队一直在加州融合创业公司TAE Technologies工作,以优化生产高能等离子体的工艺。我们建立了模型,并试图了解等离子机的最佳设置。我们已经在几个月内运行了数千台等离子机的数据。建模完成后,我们很高兴等离子体的能量会根据给定的设置而变高。但很快,我们发现的预测与我们的假设不一致。image.php?url=0MnlPfJwJF

当我们再次训练模型时,将实验时间作为唯一输入,并获得类似的预测能力。为什么?我们认为我们的第一个模型锁定时间趋势,而不是物理现象。随着实验的进行,机器运行了一段时间,有时却没有。因此,实验时间可以为您提供有关生成的等离子体是否为高能量的信息。这里的实验时间是“隐藏变量”。由于实验的设计,也可以生成隐藏变量。例如,我们团队正在进行的协作项目是“解释”显微镜图像。这些图像包括在测试板上的生物实验阵列,通常是包含细胞和液体的孔的网格。我们的目标是找到具有某些特征的毛孔,例如化学处理后细胞外观的一些变化。但是有机体本身的多样性使得每个实验板略有不同。董事会可能也存在差异。板边缘处的液滴与中心部分不同,例如边缘部分的液体蒸发更强烈,或者板本身可能倾斜,这可能导致结果的差异。机器学习算法可以轻松掌握人们未意识到的变化。例如,模型可以简单地负责确定哪些液滴位于板的边缘。检查这个“隐藏变量”的简单方法是让模型预测其他目标,例如板上的液滴位置,它所在的板,以及显微镜图像来自哪个批次。如果模型成功预测,可能需要对原始实验结果有疑问。要解决此问题,您可以使用多个机器学习模型来检测意外和隐藏变量。其中一个模型预测了主要问题。例如,无论等离子体是高能量还是低能量,无论细胞是健康还是生病,其他模型都用于消除混杂因素。如果后者的预测很强,可能有必要对数据进行标准化,进行进一步的实验,或准备纠正以前的实验结论。无法识别真正的目标:“失去功能”不是灵丹妙药

无法识别目标。机器学习算法要求研究人员指定一个“损失函数”来确定各种错误的严重程度。目前,人们倾向于使用较小的功能集,这些功能往往无法捕捉研究人员真正关心的内容。

例如,我们一直在使用机器学习来帮助求解偏微分方程。这些方程在流体力学,电磁学,材料科学,天体物理学和经济建模中很常见。我们从描述水波如何在一个维度上传播的方程开始。该算法的任务是迭代地预测当前步骤的下一个时间步长。我们使用两种略有不同的训练模型。从损失函数的角度来看,这两个模型同样优秀。然而,实际上,根本无法使用,而另一个则产生接近预期的结果。为什么?因为控制学习的损失函数只考虑下一步的错误,而不是多步骤解决方案的有效性,而我们真正想要的只是后者。在用于糖尿病性视网膜病的机器筛选的机器学习中也出现了不同的目标。对于这种疾病,如果从眼睛后部的图像中早期检测到,则可以有效地治疗。当我们收集数据并让眼科医生根据图像提供诊断时,机器学习工具会预测眼科医生会说些什么。结果有两个问题。首先,眼科医生经常不同意诊断。所以我们意识到我们无法在单一预测上建立模型。也不可能使用“少数多数”集,因为就医疗准确性而言,有时候一些观点是正确的。其次,这种单一疾病的诊断不是我们的真正目标。我们应该问的是:“这位病人是否会去看医生?”因此,有必要将预测目标从单一疾病的诊断扩展到多种疾病。机器学习从业者可以轻松掌握清晰数据和标签的“明显”目标。但是,在算法设置中可能无法解决正确的问题。必须牢记总体目标,否则确切的系统将解决错误的问题。未来如何改进?

首先,机器学习研究人员希望让自己和同事保持更高的标准。对于新的实验设备,您必须完全了解其功能,如何校准,如何检测错误以及设备的限制。机器学习模型和算法也是如此。所谓的“神奇魔法”并不存在,使用工具的人必须了解这些工具。其次,对于不同的学科,需要建立明确的标准。适当的控制,健全性检查和错误的测量会因场而异,需要明确说明,以便研究人员,审稿人和期刊编辑能够鼓励良性的科学行为。第三,需要涵盖有关机器学习科学教育的这些更广泛的问题。虽然已经有一些资源,但我们还是需要做更多的工作。作者的团队经常教授算法和工具,但学生需要更多地了解如何应用他们的算法并保持关于算法本身的适当问题。目前,计算能力,数据和算法的集合正在产生巨大的协同作用。在机器学习的祝福下,它为更多新发现创造了巨大的机会。作为科学界的一员,我们有责任确保充分利用和充分利用这一机会。

性质采用新网络

点击的人点击

http://sport.sufulo.com.cn

日期归档
通化资讯网 版权所有© www.whairuite.com.cn 技术支持:通化资讯网 | 网站地图