Более 700 спутников для получения изображений вращаются вокруг Земли и каждый день передают огромное количество информации, включая данные, отражающие изменение климата, здоровье и бедность, в наземные базы данных. Есть только одна проблема: хотя геопространственные данные могут помочь исследователям и политикам решать критические проблемы, только те, кто обладает значительным богатством и опытом, могут получить к ним доступ сообщает сайт sheffieldjungle.
Теперь команда из Калифорнийского университета в Беркли разработала систему машинного обучения, чтобы задействовать потенциал решения проблем спутниковой съемки, используя недорогую и простую в использовании технологию, которая может предоставить исследователям доступ и аналитические возможности. и правительства по всему миру. Исследование «Обобщенный и доступный подход к машинному обучению с использованием глобальных спутниковых снимков» было опубликовано сегодня (вторник, 20 июля) в журнале Nature Communications .
«Спутниковые изображения содержат невероятное количество данных о мире, но хитрость заключается в том, как преобразовать данные в полезные идеи, не прибегая к человеческому гребешку для каждого отдельного изображения», — сказала соавтор Эстер Рольф, доктор философии на последнем курсе. . студент информатики. «Мы разработали нашу систему для обеспечения доступности, чтобы один человек мог запустить ее на ноутбуке без специальной подготовки для решения своих местных проблем».
«Мы входим в режим, в котором наши действия имеют поистине глобальное влияние», — сказал соавтор Соломон Сян, директор Лаборатории глобальной политики в Школе государственной политики Goldman. «Дела движутся быстрее, чем когда-либо в прошлом. Мы меняем распределение ресурсов быстрее, чем когда-либо. Мы трансформируем планету. Для этого требуется более гибкая система управления, которая способна видеть эти вещи, чтобы мы можем ответить своевременно и эффективно «.
Этот проект был результатом сотрудничества Лаборатории глобальной политики, которой руководит Сян, и исследовательской группы Бенджамина Рехта из отдела электротехники и компьютерных наук. Другие соавторы — доктор философии в Беркли. выпускница Тамма Карлтон, сейчас учится в Калифорнийском университете в Санта-Барбаре; Джонатан Проктор, в настоящее время работает в Гарвардском центре инициативы в области окружающей среды и науки о данных; Ян Боллигер, сейчас в Rhodium Group; и Вайшаал Шанкар, ныне работающий на Amazon; и доктор философии в Беркли. ученица Мияби Исихара.
Все они были в Беркли, когда проект начался. Их сотрудничество было замечательно тем, что объединило дисциплины, которые часто смотрят на мир по-разному и говорят на разных языках: информатика, наука об окружающей среде и климате, статистика, экономика и государственная политика.
Но они руководствовались общей заинтересованностью в создании инструмента открытого доступа, который демократизирует мощь технологий, делая его доступным даже для сообществ и стран, которым не хватает ресурсов и передовых технических навыков. «Это похоже на Ford Model T, но с машинным обучением и спутниками», — сказал Сян. «Это достаточно дешево, чтобы каждый теперь может получить доступ к этой новой технологии».
— МОСАИКС: Улучшение жизни, защита планеты —
Система, появившаяся в результате исследования в Беркли, называется MOSAIKS, сокращенно от многозадачного наблюдения с использованием спутниковых изображений и кухонных раковин. В конечном итоге он сможет анализировать сотни переменных, взятых из спутниковых данных — от состояния почвы и воды до жилья, здоровья и бедности — в глобальном масштабе.
В исследовательском документе подробно описывается, как MOSAIKS удалось воспроизвести с разумной точностью отчеты, подготовленные за большие деньги Бюро переписи населения США. Он также обладает огромным потенциалом в решении проблем развития в странах с низким уровнем доходов и в помощи ученым и политикам в понимании общей картины изменения окружающей среды.
«Изменение климата расплывчато, и его трудно увидеть в каком-либо одном месте, но если вы отойдете назад и посмотрите в широком масштабе, вы действительно увидите, что происходит вокруг планеты», — сказал Сян, который также является соруководителем мультиучрежденческая лаборатория воздействия на климат.
Например, по его словам, спутниковые данные могут дать исследователям новые глубокие взгляды на обширные пастбищные угодья, такие как Великие равнины в США и Сахель в Африке, или на такие области, как Гренландия или Антарктида, которые могут сбрасывать айсберги при повышении температуры.
«Эти районы такие большие, и люди, которые сидят на них, рассматривают фотографии и считают айсберги, действительно неэффективны», — пояснил Сян. Но с помощью MOSAIKS, сказал он, «вы можете автоматизировать это и отслеживать, действительно ли эти ледники разрушаются быстрее или это происходило все время».
Для правительства в развивающемся мире эта технология может помочь принять даже рутинные решения, например, где строить дороги.
«Правительство хочет строить дороги в местах наибольшего скопления людей и наибольшей экономической активности», — сказал Сян. «Возможно, вам захочется узнать, какое сообщество недостаточно обслуживается, или о состоянии существующей инфраструктуры в сообществе. Но часто очень сложно получить эту информацию».
— Задача: организация триллионов байтов необработанных спутниковых данных —
Растущий парк спутников для получения изображений отправляет данные на Землю круглосуточно и без выходных — около 80 терабайт каждый день, согласно исследованию, и в ближайшие годы это число наверняка вырастет.
Но часто спутники построения изображений создаются для сбора информации по узким темам — например, запасы пресной воды или состояние сельскохозяйственных почв. И данные не поступают в виде аккуратных, упорядоченных изображений, как снимки из фотоателье. Это необработанные данные, масса двоичной информации. Исследователи, имеющие доступ к данным, должны знать, что они ищут.
Простое хранение такого количества терабайт данных требует огромных вложений. Для извлечения слоев данных, встроенных в изображения, требуются дополнительные вычислительные мощности и передовой человеческий опыт, чтобы выделить цепочки информации, которые являются последовательными и полезными для других исследователей, политиков или финансирующих агентств.
По словам Рольфа и Сянга, использование спутниковых изображений неизбежно в значительной степени ограничено учеными или агентствами из богатых стран.
«Если вы элитный профессор, вы можете попросить кого-нибудь построить для вас ваш спутник», — сказал Сян. «Но у природоохранного агентства в Кении нет возможности получить доступ к технологиям и экспертам для выполнения этой работы.
«Мы хотели найти способ расширить их возможности. Мы решили создать швейцарский армейский нож — практичный инструмент, доступный каждому».
— Как Google для спутниковых снимков, вроде —
Одним из аспектов бедности, особенно в странах с низким уровнем дохода, является нехватка данных. Но даже сообщества в США и других развитых странах обычно не имеют доступа к геопространственным данным в удобном, удобном формате для решения местных проблем.
Машинное обучение открывает дверь к решениям.
В общем смысле машинное обучение относится к компьютерным системам, которые используют алгоритмы и статистическое моделирование для обучения самостоятельно, без пошагового вмешательства человека. Новое исследование описывает систему, которая может собирать данные, доставляемые многими спутниками, и систематизировать их доступными и полезными способами.
Существуют прецеденты для таких систем: Google Earth Engine и Microsoft Planetary Computer являются платформами для доступа и анализа глобальных геопространственных данных с упором на сохранение. Но, по словам Рольфа, даже при использовании этих технологий часто требуется значительный опыт для преобразования данных в новые идеи.
По словам Рольфа, цель MOSAIKS — не в разработке более сложных систем машинного обучения. Скорее, его новшество состоит в том, что спутниковые данные широко используются для решения глобальных проблем. Команда сделала это, радикально упростив и повысив эффективность алгоритмов.
MOSAIKS начинается с обучения распознаванию мельчайших узоров на изображениях — Сян сравнивает это с игрой в Scrabble, в которой алгоритм учится распознавать каждую букву. Однако в этом случае плитки представляют собой крошечные фрагменты спутникового изображения, 3 на 3 пикселя.
Но MOSAIKS не делает вывод «это дерево» или «это тротуар». Вместо этого он распознает закономерности и группирует их вместе, сказал Проктор. Он учится распознавать похожие модели в разных частях мира.
Когда тысячи терабайт из сотен источников проанализированы и систематизированы, исследователи могут выбрать деревню, страну или регион и извлечь систематизированные данные, которые могут затрагивать столь разные темы, как влажность почвы, состояние здоровья, миграция людей и домашние ценности.
В некотором смысле, сказал Сян, MOSAIKS может сделать для спутниковых баз данных то же, что Google в первые дни сделал для Интернета: сопоставить данные, сделать их доступными и удобными для пользователя при невысокой стоимости и, возможно, сделать их доступными для поиска. Но Рольф, специалист по машинному обучению из отдела электротехники и компьютерных наук Беркли, сказал, что сравнение Google продолжается только до сих пор.
«MOSAIKS» — это перевод огромного количества данных в полезную информацию, — пояснила она. «Возможно, лучшей аналогией было бы то, что система берет очень объемную информацию — скажем, очень большую статью — и выдает резюме».
— Создание живого атласа глобальных данных —
И Сян, и Рольф видят потенциал развития MOSAIKS в мощном и элегантном направлении.
Сян представляет, как данные собираются в компьютерные, постоянно развивающиеся атласы. Перейдя на любую заданную «страницу», пользователь сможет получить доступ к обширным и подробным данным об условиях в стране или регионе.
Рольф представляет систему, которая может принимать поток данных от всего парка спутников и удаленных датчиков человечества и преобразовывать его в текущий портрет Земли и ее жителей, постоянно находящихся в состоянии изменений. Мы могли видеть прошлое и настоящее, распознавать возникающие проблемы и решать их.
«Мы отправили так много вещей в космос», — говорит Сян. «Это потрясающее достижение. Но мы можем получить гораздо больше отдачи от всех этих данных, которые мы уже собираем. Давайте дадим миру использовать их с пользой. Давайте использовать их во благо».