中科软博

当前位置:首页 > 科技研发

通过机器学习系统可以挖掘出卫星成像解决问题的潜力

通过机器学习系统可以挖掘出卫星成像解决问题的潜力

700 多颗成像卫星围绕地球运行,每天它们都会向地面数据库发送海量信息,包括反映气候变化、健康和贫困的数据。只有一个问题:虽然地理空间数据可以帮助研究人员和决策者应对关键挑战,但只有拥有大量财富和专业知识的人才可以访问它。



现在,加州大学伯克利分校的一个团队设计了一个机器学习系统来挖掘卫星成像解决问题的潜力,使用低成本、易于使用的技术,可以为全世界的研究人员和政府带来访问和分析能力。这项名为“使用全球卫星图像进行机器学习的通用且可访问的方法”的研究发表在《自然通讯》杂志上。



卫星图像包含大量关于世界的数据,但诀窍是如何将数据转化为有用的见解,而无需人工梳理每张图像,计算机科学专业的学生。“我们为无障碍设计了我们的系统,因此一个人应该能够在笔记本电脑上运行它,而无需专门培训,以解决他们当地的问题。



该项目是 Hsiang 领导的全球政策实验室与 Benjamin Recht 电气工程和计算机科学系研究团队之间的合作。其他合著者是伯克利博士。Tamma Carleton 毕业生,现就读于加州大学圣巴巴拉分校;Jonathan Proctor,现供职于哈佛大学环境与数据科学计划中心;Ian Bolliger,现在在荣鼎集团;和 Vaishaal Shankar,现在在亚马逊;和伯克利博士 学生石原美雅。



项目开始时,他们都在伯克利。他们的合作非常出色,将经常以不同方式看待世界并使用不同语言的学科汇聚在一起:计算机科学、环境和气候科学、统计学、经济学和公共政策。



但他们的共同兴趣是创建一个开放获取工具,使技术的力量民主化,即使是缺乏资源和先进技术技能的社区和国家也可以使用它。这就像福特的 Model T,但有机器学习和卫星,它足够便宜,现在每个人都可以使用这项新技术。”



来自伯克利研究的系统称为 MOSAIKS,是使用卫星图像和厨房水槽进行多任务观测的缩写。它最终有能力在全球范围内分析从卫星数据中提取的数百个变量,从土壤和水条件到住房、健康和贫困。



研究论文详细介绍了 MOSAIKS 如何能够以合理的准确性复制美国人口普查局以高昂的成本准备的报告。它在应对低收入国家的发展挑战以及帮助科学家和决策者了解环境变化的全局方面也具有巨大潜力。



气候变化是分散的,在任何一个地方都很难看到,但是当你退后一步看大范围时,你真的会看到地球周围正在发生的事情,多机构气候影响实验室。
卫星数据可以让研究人员深入了解广阔的牧场地区,如美国的大平原和非洲的萨赫勒地区,或格陵兰岛或南极洲等可能随着气温上升而脱落冰山的地区。



在印度安得拉邦,卫星图像显示了数百个绿色水产养殖池塘,当地农民在这里养殖鱼虾。加州大学伯克利分校的学者表示,地理空间成像在发展中国家应对与农业、贫困、健康和人口迁移相关的挑战方面具有巨大潜力。但到目前为止,有效访问和分析卫星数据所需的技术和专业知识通常仅限于发达国家。



这些区域太大了,让人们坐在那里看照片和数冰山的效率真的很低,可以实现自动化并追踪这些冰川是否真的在更快地崩解,或者这种情况是否一直在发生。



对于发展中国家的政府来说,这项技术甚至可以帮助指导日常决策,例如在哪里修路。
政府希望在人口最多、经济活动最多的地方修建道路。



挑战:组织数万亿字节的原始卫星数据



研究表明,越来越多的成像卫星每天 24/7 将数据传回地球——大约 80 TB,未来几年这个数字肯定会增长。



但通常,建造成像卫星是为了捕捉关于狭窄主题的信息——例如淡水供应或农业土壤的状况。并且数据不会像照片店的快照那样以整洁有序的图像形式出现。这是原始数据,大量的二进制信息。访问数据的研究人员必须知道他们在寻找什么。



仅仅存储如此多 TB 的数据就需要巨大的投资。提取图像中嵌入的数据层需要额外的计算能力和先进的人类专业知识,以梳理出对其他研究人员、政策制定者或资助机构有用且连贯的信息链。



不可避免地,利用卫星图像在很大程度上仅限于富裕国家的学者或机构。



就像谷歌的卫星图像一样



特别是在低收入国家,贫困的一个维度是数据贫困。但即使是美国和其他发达国家的社区通常也无法以方便、可用的格式访问地理空间数据来解决当地挑战。



机器学习为解决方案打开了大门。



这些插图展示了加州大学伯克利分校开发的 MOSAIKS 机器学习系统如何详细预测森林覆盖率。



一般意义上,机器学习是指计算机系统使用算法和统计建模自行学习,无需人为一步步干预。新研究描述的是一个系统,该系统可以组合许多卫星提供的数据,并以可访问和有用的方式对其进行组织。



这种系统有先例:谷歌地球引擎和微软的行星计算机都是访问和分析全球地理空间数据的平台,重点是保护。但是,罗尔夫说,即使有了这些技术,通常也需要大量的专业知识才能将数据转化为新的见解。



MOSAIKS 的目标不是开发更复杂的机器学习系统。相反,它的创新在于使卫星数据可广泛用于应对全球挑战。该团队通过使算法变得更加简单和高效来做到这一点。



MOSAIKS 从学习识别图像中的微小图案开始——Hsiang 将其比作拼字游戏,在游戏中算法学习识别每个字母。但是,在这种情况下,图块是 3 像素 x 3 像素的小块卫星图像。



但 MOSAIKS 并没有得出“这是一棵树”或“这是人行道”的结论。Proctor 说,相反,它识别模式并将它们组合在一起。它学会识别世界不同地区的相似模式。



当分析和组织来自数百个来源的数千 TB 数据时,研究人员可以选择一个村庄、一个国家或一个地区,并提取有组织的数据,这些数据可以涉及土壤湿度、健康状况、人口迁移和家庭价值等各种主题。



从某种意义上说,MOSAIKS 可以像谷歌早期为互联网所做的那样为卫星数据库做:映射数据,以低成本使其易于访问和用户友好,并且可能使其可搜索。但伯克利电气工程和计算机科学系的机器学习学者罗尔夫表示,谷歌的比较仅到此为止。



MOSAIKS是关于将大量的数据转化为可用的信息。也许更好的类比是系统获取非常密集的信息——比如一篇非常大的文章——并产生一个摘要。



创建全球数据的生动地图集



Hsiang 和 Rolf 都看到了 MOSAIKS 向强大而优雅的方向发展的潜力。



Hsiang 想象数据被收集到基于计算机的、不断发展的地图集中。转到任何给定的“页面”,用户可以访问有关某个国家或地区状况的广泛而深入的数据。



Rolf 设想了一个系统,该系统可以从人类成像卫星和遥感器的舰队中获取数据流,并将其转换为不断变化的地球及其居民的流动、实时画像。



这是一项了不起的成就。但是对于我们已经提取的所有这些数据,我们可以获得更多的收益。








上一篇:在线机器学习工具能帮助个人财务管理吗?
下一篇:人工智能在医学中的应用