中科软博

当前位置:首页 > 科技研发

自监督机器学习增加了气象调查的深度、广度和速度

自监督机器学习增加了气象调查的深度、广度和速度

天空调查对于探索宇宙非常宝贵,可以对天体进行编目和分析,而无需进行长时间的观测。



在提供天空区域的一般地图或图像时,它们也是科学中最大的数据生成器之一,目前在单个调查的生命周期内对数千万到数十亿个星系进行成像。例如,智利的 Vera C. Rubin 天文台每晚将产生 20 TB 的数据,每天生成约 1000 万条警报,最终的数据集将达到 60 PB。
因此,在筛选收集到的数据集以找到最相关的信息或新发现时,天空调查变得越来越耗费人力。



近年来,机器学习为这个过程增加了一个受欢迎的转折点,主要是用于训练挖掘数据的计算机模型的有监督和无监督算法。但是这些方法提出了自己的挑战;例如,监督学习需要必须手动分配图像标签,这项任务不仅耗时而且范围有限;目前,只有大约 1% 的已知星系被赋予了这样的标签。



为了解决这些限制,来自劳伦斯伯克利国家实验室(伯克利实验室)的一组研究人员正在探索一种新方法:自监督表示学习。与无监督学习一样,自监督学习不需要训练标签,而是尝试通过比较来学习。通过引入某些数据增强,自监督算法可用于构建“表示”,保留其固有信息的低维图像版本,并且最近已被证明在行业标准图像数据集上优于监督学习。



伯克利实验室团队发表在《天体物理学杂志快报》上的一篇论文中介绍了他们的研究和结果。



它是第一个将自我监督学习的最先进技术,应用于大型科学数据集并取得巨大成果的公司,并且已经引起了社区的广泛兴趣。



阿肯色大学的学生加入了 NERSC 的暑期实习计划,与 Mustafa Mustafa 合作,当时该团队开始追求将自监督表示学习应用于天空调查数据分析的想法。考虑到世界上越来越复杂的望远镜产生的图像数据集的规模越来越大,他们的部分动机是越来越需要找到创新的方法来进一步自动化和加速这一过程。
当斯隆数字巡天在 1990 年代开始时,不可能对他们的所有图像进行专家标记。相反,该领域转向了众包和‘公民科学’,这反过来又产生了像 Galaxy Zoo 这样的数据集。但是来自下一代望远镜的数据量将如此之大,以至于众包也无法帮助您整理所有图像。



图像的数量每天都在增加,因此人类不可能一张一张地查看所有图像并提供标签。所以最终这个过程必须以某种方式自动化。我们的方法是从这些图片中提取有用的特征,并训练模型从一小部分数据中提出解决方案,以概括为整体表示。



在该项目的概念验证阶段,该团队应用了斯隆数字巡天 (SDSS) 生成的约 120 万个星系图像的现有数据。目标是使计算机模型能够学习星系形态分类和光度红移估计的图像表示,这是天空调查中常见的两个“下游”任务。在这两种情况下,他们发现自我监督的方法优于监督的最先进结果。



这种方法在不使用任何标签的情况下从整个天空调查中学习,并且它可以同时执行大量任务,每个任务的性能都比以前更高,不是教模型完成某项任务,而是教它搜索所有数据并了解图像之间的差异,从而了解图像本身的内容。



该方法背后的想法很容易理解,共同作者、伯克利实验室的机器学习工程师 Peter Harrington 补充道。“给定一个星系的图片,你可以生成它的不同视图——旋转星系,给图像添加一点噪音,也许用一些模糊来涂抹它——然后进行这些类似于你在望远镜中看到的噪音的小变换本身,”他说。“然后,您只需教您的模型将同一对象的不同视图关联为相似对象。这基本上就是我们构建这些表示并将知识暴露给模型并使其对噪声保持不变的方式。”



研究团队现在正准备将他们的方法应用于更大、更复杂的数据集——暗能量相机遗留调查 (DECaLS)——并扩展应用程序和任务的范围。哈亚特指出,其他科学领域也可以从这种方法中受益,包括显微镜、高能物理(异常检测)、医学成像和卫星图像。



研究团队写道:“我们已经证明,在未标记数据上的自我监督表示学习比监督学习在多个任务上产生了显着的性能提升。” “在海量测光数据库上训练大型自监督模型并‘服务’模型供更大社区使用的可能性……是天空调查中机器学习应用的一个令人兴奋的新方向。”



同样重要的是,Stein 补充说:“这项技术通过让我们朝着不同的做事方式前进,从而加快了科学发展。它使任何没有机器学习专业知识或只有少量计算机能力的人都可以使用它,从而降低了门槛开始使用这些海量数据集。”







上一篇:人工智能和 3D 打印如何改变制造业
下一篇:在线机器学习工具能帮助个人财务管理吗?