Forecasting the spatiotemporal dynamics of the auroral oval using machine learning

Anastasia A. Lebedeva; Лебедева Анастасия Александровна; Alexander A. Garashchenko; Гаращенко Александр Алексеевич; Denis N. Sidorov; Сидоров Денис Николаевич

doi:10.25729/ESI.2025.37.1.003

Forecasting the spatiotemporal dynamics of the auroral oval using machine learning

作者: Lebedeva A.A.¹, Garashchenko A.A.², Sidorov D.N.³
隶属关系:
1. Sberbank PJSC
2. Irkutsk National Research Technical University
3. Melentiev Energy Systems Institute of the Siberian Branch of the RAS
期: 编号 1 (2025)
页面: 25-33
栏目: Methods, technologies and applications of artificial intelligence
URL: https://journal-vniispk.ru/2413-0133/article/view/290050
DOI: https://doi.org/10.25729/ESI.2025.37.1.003
ID: 290050

如何引用文章

全文:

详细
全文:
作者简介
参考
补充文件
统计

详细

The ionosphere is a part of the Earth's atmosphere with a high concentration of free electrons and ions. The characteristic features of the ionosphere include variability and heterogeneity. One of the heterogeneities is the so-called auroral oval, which determines the range of the polar lights. Recognition of the auroral oval is an important task for predicting auroral storms, since they affect the operation of long-range communication systems, navigation, communication between satellites and the ground, making it difficult or impossible. Thus, there is a need to detect and predict the movement of the auroral oval in order to be aware of the area of their possible influence in certain periods of time. Based on the available set of images obtained in the SIMuRG system, which are based on GNSS datasets, it is proposed to use the LSTM model and the CNN architecture. The paper reviews existing implementations and proposes a method for predicting auroral oval movements in images using a Convolutional LSTM architecture that combines time series processing and computer vision. The result is a machine learning model that can make predictions based on even small amounts of data.

关键词

frame prediction architecture, computer vision, machine learning, operations research

全文:

Введение. Магнитосфера Земли эффективно защищает ее поверхность от высокоэнергетических частиц, за исключением полярных областей, где геомагнитное поле вновь соединяется с полем солнечного ветра. Это повторное соединение вызывает проникновение заряженных частиц в атмосферу, нагревая и заряжая нейтральные атомы, производя ионы и электроны в ионосфере. Во время различных событий на Солнце (вспышки, выбросы корональной массы и т.д.) Земли достигает больше заряженных частиц. Кроме того, давление солнечного ветра искажает форму магнитосферы, позволяя большему количеству заряженных частиц проникать в атмосферу и вызывая магнитные бури и подбури. И те, и другие проявляются в полярных областях, как авроры (свечение заряженных атомов атмосферы), нагревая ионосферу и порождая электрические токи и неоднородности различных масштабов в ней [1].

Ионосферные неоднородности влияют на работу систем связи на дальние расстояния, навигацию, локацию, связь между спутниками и землей, затрудняя или делая ее невозможной. Также они оказывают значительное влияние на изменение электромагнитной индукции в Земле, в частности на поведение геомагнитно-индуцированных токов (ГИТ) [2, 3]. Влияние ионосферных неоднородностей различно на разных широтах, и области авроральных овалов под воздействием солнечного ветра индуцируют потоки поверхностных электрических полей, движущихся в направлении с востока на запад [4]. Таким образом, возникает потребность в обнаружении и прогнозировании перемещения аврорального овала, чтобы быть осведомленными в области их возможного влияния в определенные периоды времени.

Неоднородности малого масштаба, среди прочего, вызывают частые изменения полного электронного содержания (total electron content, TEC), измеряемого на пути от спутника к приемнику. Характер изменений TEC рассчитывается по коэффициенту, именуемому ROTI (Rate of TEC Index). ROTI определяется по следующей формуле:

$R O T I = \sqrt{\frac{1}{N} \sum_{m = n - \frac{N}{2}}^{n + \frac{N}{2} - 1} {(R O T_{m} - \bar{R O T_{m}})}^{2}}, R O T_{m} = ∆ I / ∆ t$ .

Здесь ∆I обозначает изменение TEC во времени ∆t, которое представляет собой временное разрешение измерений (обычно 30 с). Расчет ROTI выполняется на 5-минутном временном интервале. ROTI для определенного времени включает ROTI из интервала ± 2,5 мин, примыкающего к этому времени.

На основе TEC и карт полного ночного неба был создан метод, результатом которого является изображение с обнаруженным на нем авроральным овалом [5]. Однако неоднородности не являются статичными и через определенный промежуток времени могут создать помехи в других областях или выйти из зоны покрытия спутников. Таким образом, целью работы является прогнозирование перемещения авроральных овалов, используя набор изображений на определенном промежутке времени.

Для решения подобных задач используются методы компьютерного зрения, в частности, данная задача может рассматриваться как задача прогнозирования следующего кадра (Next-Frame Prediction) [6].

Прогнозирующее обучение предсказывает возможные события путем анализа имеющейся информации. Существуют несколько практических приложений, где используется предиктивное обучение [7]. Для подобного типа обучения используют рекуррентные сети. Рекуррентные сети подходят для поиска закономерностей в последовательных данных, например, для автомобильного трафика [8], прогнозирования погоды [9] или движений человека [10].

Обучение сети происходит последовательно, согласно временной последовательности изображений. Сеть находит последовательность изменений пикселей между изображениями. Кроме того, для конкретного изображения связь между пикселями является важным фактором, который необходимо учитывать при прогнозировании следующего кадра.

Ключевой признак может быть извлечен из пространственной структуры изображения по положению, внешнему виду и форме объекта. В работе [7] предлагается разделение сетей для предсказания следующего кадра на две архитектуры: «последовательность-один» и «последовательность-последовательность».

В первой архитектуре входными данными для модели глубокого обучения является набор кадров в порядке временных шагов от t до t + k. Предсказанием является следующий кадр [11-14].

Для второй архитектуры входными данными являются временные кадры, которые отдельно подаются в нейронную сеть [15-17]. В частности, кадр с временным шагом t подается на вход модели глубокого обучения, а предсказанием является следующий кадр с временным шагом t + k. Эта операция выполняется непрерывно, пока модель глубокого обучения не получит кадр на (t + k)-м временном шаге.

Иными словами, архитектура «последовательность-один» фокусируются на пространственной структуре из набора входных кадров, в то время как архитектуры «последовательность-последовательность» фокусируются на факторе временной последовательности.

Были рассмотрены несколько реализаций на основе сети CNN (Convolutional neural networks) и архитектуры LSTM (Long short-term memory).

Работа «VideoPredictionICLR2016» является представителем архитектуры «последовательность-один». Авторы этой работы [13] обучают сверточную сеть генерировать будущие кадры с учетом входной последовательности. Чтобы справиться с изначально размытыми прогнозами, полученными с помощью стандартной функции потерь среднеквадратичной ошибки (MSE), авторы предлагают три различных и дополнительных стратегии обучения функциям: многомасштабную архитектуру, состязательный метод обучения и функцию потери разницы градиентов изображения. Также авторы сравнивают прогнозы с различными опубликованными результатами, основанными на повторяющихся нейронных сетях в наборе данных UCF101.

Другая работа «Video Frame Synthesis using Deep Voxel Flow» [12] также имеет архитектуру «последовательность-один» и решает проблему синтеза новых видеокадров в существующем видео либо между существующими кадрами (интерполяция), либо после них (экстраполяция). Авторы обучают сеть, которая учится синтезировать видеокадры, передавая значения пикселей из существующих, что они называют глубоким потоком вокселей.

Принцип работы состоит в том, что DVF учится синтезировать целевой кадр из входного видео. Целевой кадр может быть промежуточным (интерполяция) или последующим (экстраполяция) входным видео. DVF использует архитектуру полностью сверточного кодера-декодера, содержащую три сверточных слоя, три уровня деконволюции и один слой узкого места. Единственное, что нужно для контроля DVF, – это синтезируемый целевой кадр.

В следующей работе PredRNN++ [18], которая является представителем архитектуры «последовательность-последовательность», предложена рекуррентная сеть для пространственно-временного прогнозирующего обучения. Авторы в своей работе использовали рекуррентную структуру под названием Causal LSTM с каскадной двойной памятью, а также блок Gradient Highway Unit, который обеспечивает альтернативные быстрые маршруты для градиентных потоков от выходов обратно к длинным предыдущим входам.

В работе Folded Recurrent Neural Networks [19], также придерживающейся архитектуры «последовательность-последовательность», использованы биективные рекуррентные блоки с управлением (bGRU). Стандартные GRU обновляют состояние, выставляемое, как выход с учетом входа. Авторы работы расширяют их, рассматривая вход, как другое рекуррентное состояние, и обновляют его с учетом выхода, используя дополнительный набор логических ворот. Укладка нескольких таких слоев приводит к рекуррентному автокодировщику: операторы, обновляющие выходы, составляют кодер, а те, что обновляют входы, образуют декодер. Состояния кодера и декодера являются общими, представление расслаивается в процессе обучения: некоторая информация не передается следующим слоям. Авторы используют только кодер или декодер для кодирования или предсказания. Это снижает вычислительные затраты и позволяет избежать повторного кодирования предсказаний при генерации нескольких кадров. Кроме того, можно удалять слои из обученной модели, что позволяет понять роль каждого слоя.

Несмотря на имеющиеся преимущества у этих работ, они также имеют ряд недостатков. Во-первых, в них используются устаревшая версия библиотеки TensorFlow, что делает невозможным доработку этих работ без полного или частичного переписывания изначального кода. Во-вторых, наборы данных, на которых тестировались работы, рассчитаны на определение человеческих движений или физики объекта, что не совсем подходит для решения нашей задачи.

Однако, методы, на которых основаны эти работы, могут быть использованы и в этом случае, но с определенной спецификой. Поскольку данные, которыми мы располагаем, являются своего рода временным рядом, то для них существует подходящий метод – ConvLSTM [9].

Convolutional LSTM-архитектуры объединяют обработку временных рядов и компьютерное зрение путем внедрения конволюционной рекуррентной ячейки в слой LSTM.

Методы. Для данного исследования использовались данные в виде набора изображений за определенные дни, которые являются совмещением данных TEC и данных карт полного ночного неба [5]. Эти данные, собранные за последовательные периоды времени, можно охарактеризовать, как временной ряд. В таких случаях подходящим подходом является использование модели на основе LSTM (Long Short Term Memory) [20], архитектуры рекуррентной нейронной сети. Математически ее можно представить следующим образом:

$f_{t} = σ_{g} (W_{f} x_{t} + U_{f} h_{t - 1} + b_{f}), i_{t} = σ_{g} (W_{i} x_{t} + U_{i} h_{t - 1} + b_{i}), o_{t} = σ_{g} (W_{o} x_{t} + U_{o} h_{t - 1} + b_{o}), c_{t} = f_{t} \circ c_{t - 1} + i_{t} \circ σ_{c} (W_{c} x_{t} + U_{c} h_{t - 1} + b_{c}), h_{t} = o_{t} \circ σ_{c_{t}},$

где x_t – входной вектор, h_t – выходной вектор, c_t – вектор состояний, W, U, b – матрицы и вектор параметров, f_t – вес забывания старой информации, i_t – вес получения новой информации, o_t – кандидат на выход, σ_g – функция активации на основе сигмоиды, σ_c – на основе гиперболического тангенса. В такой архитектуре модель передает предыдущее скрытое состояние на следующий шаг последовательности. Таким образом, сеть хранит информацию о предыдущих данных и использует их для принятия решений.

При работе с изображениями лучшим подходом является архитектура CNN (Convolutional Neural Network) [21]. Изображение проходит через конволюционные слои, в которых несколько фильтров извлекают важные особенности. После последовательного прохождения нескольких конволюционных слоев выходной сигнал подключается к полносвязной плотной сети.

С такими последовательными изображениями одним из использованных подходов являлось использование слоев ConvLSTM. Математическое описание модели LSTM со сверточным слоем можно представить следующим образом:

$f_{t} = σ_{g} (W_{f} * x_{t} + U_{f} * h_{t - 1} + V_{f} \circ c_{t - 1} + b_{f}), i_{t} = σ_{g} (W_{i} * x_{t} + U_{i} * h_{t - 1} + V_{i} \circ c_{t - 1} + b_{i}), o_{t} = σ_{g} (W_{o} * x_{t} + U_{o} * h_{t - 1} + V_{o} \circ c_{t - 1} + b_{o}), c_{t} = f_{t} \circ c_{t - 1} + i_{t} \circ σ_{c} (W_{c} * x_{t} + U_{c} * h_{t - 1} + b_{c}), h_{t} = o_{t} \circ σ_{c_{t}},$

где * обозначает свертку. Это рекуррентный слой, как и LSTM, но внутренние матричные умножения заменены операциями свертки. В результате данные, проходящие через ячейки ConvLSTM, сохраняют размерность входа, а не являются просто одномерным вектором с признаками.

Для обработки данных была решено использовать реализацию этих методов в библиотеке Keras. Для создания датасета используются несколько наборов из шестнадцати кадров с разрешением 320 × 320 пикселей. Наборы данных загружались в фреймворк с последующим созданием и предварительной обработкой обучающих и проверочных датасетов, которые имели соотношение 90 обучающих к 10 тестовым. На рисунке 1 представлены подготовленные данные.

Рис. 1. Подготовленные данные для обучения сети

Для предсказания следующего кадра модель использует предыдущий кадр, который называется f_n, для прогнозирования нового кадра, называемого f_n_{+ 1}. Чтобы модель могла создавать эти прогнозы, данные обработаны так, чтобы были «смещенные» входы и выходы, где входные данные – это кадр x_n, используемый для прогнозирования кадра y_n_{+ 1}.

Для построения конволюционной LSTM-модели используется слой ConvLSTM2D, который принимает входные данные и возвращает прогноз кадра той же формы, то есть сначала строятся 3 слоя «ConvLSTM2D» с нормализацией пакетов, затем слой «Conv3D» для пространственно-временных выходов. После построения модели и подготовки данных определяются параметры и начинается обучение модели.

Для оценки точности полученных результатов было решено использовать Индекс структурного сходства (SSIM). Метрика индекса структурного сходства извлекает из изображения 3 ключевые характеристики: яркость, контрастность и структуру [22]. Сравнение двух изображений выполняется на основе этих трех характеристик.

Эта система рассчитывает индекс структурного сходства между двумя заданными изображениями, который представляет собой значение от −1 до +1. Значение +1 означает, что два заданных изображения очень похожи или одинаковы, а значение −1 означает, что эти два изображения очень разные. Часто эти значения корректируются, чтобы быть в диапазоне [0, 1], где крайние значения имеют одинаковое значение.

Результаты. После построения и обучения модели, генерируется несколько примеров прогнозирования кадров на основе набора кадров. Выбирается случайный пример из проверочного набора и из него первые два кадра. После этого модель спрогнозирует два новых кадра, которые мы можем сравнить с реальными. Результаты представлены в таблице 1 и на рисунке 2.

Таблица 1. Результаты прогнозирования

Количество наборов	Количество кадров в наборе	Средняя квадратичная ошибка	Индекс структурного сходства
2	16	0.08804311	0.64
10	16	0.071662135	0.76
20	16	0.03555805	0.81

Рис. 2. Реальные кадры (сверху) и прогнозные кадры (снизу)

Заключение. В результате работы была выявлена высока практическая эффективность в применении Convolutional LSTM-архитектуры для прогнозирования перемещения авроральных овалов на основе изображений, полученных в системе SIMuRG. В работе был использован сравнительно небольшой набор данных, в дальнейшем планируется его увеличение, что приведет к повышению точности модели.

Чтобы результат прогнозирования имел более очевидное практическое применение, требуется разработка методики обнаружения овала на прогнозируемых изображениях, что является следующим этапом этой работы.

Выполненная работа в сочетании с методом определения овалов может способствовать развитию стабильного подхода к определению и прогнозированию границ районов, характеризующихся возникновением сбоев в работе навигационных систем, большими ошибками позиционирования, которые могут возникать даже в средних широтах во время сильных магнитных бурь, когда авроральный овал смещен к экватору.

Благодарности. Работа выполнена в рамках государственного задания FZZS-2024-0003.

Acknowledgements: the work was carried out within the framework of the state assignment FZZS-2024-0003.

作者简介

Anastasia Lebedeva

Sberbank PJSC

编辑信件的主要联系方式.
Email: garashchenkoaa@mail.ru

Expert in Digital Audit Technologies of the Department of Audit of Supporting Processes

俄罗斯联邦, Irkutsk

Alexander Garashchenko

Irkutsk National Research Technical University

Email: garashchenkoaa@mail.ru
SPIN 代码: 7466-9182

Junior Researcher

俄罗斯联邦, 83, Lermontov St., Irkutsk, 664074

Denis Sidorov

Melentiev Energy Systems Institute of the Siberian Branch of the RAS

Email: contact.dns@gmail.com
SPIN 代码: 6049-9314

Chief Researcher at the Department of Applied Mathematics

俄罗斯联邦, 130, Lermontov St., Irkutsk, 664033

参考

Opgenoorth H.J. et al. Earth’s geomagnetic environment – progress and gaps in understanding, prediction, and impacts. Advances in space research, 2024, doi: 10.1016/j.asr.2024.05.016.
Pulkkinen A. et al. Geomagnetically induced currents: science, engineering, and applications readiness. Space weather, 2017, vol. 15, no. 7, p. 828-856, doi: 10.1002/2016SW001501.
Rajput V.N. et al. Insight into impact of geomagnetically induced currents on power systems: overview, challenges and mitigation. Electric power systems research, 2021, vol. 192, p. 106927, doi: 10.1016/j.epsr.2020.106927.
Thomson A. W. P. et al. Present day challenges in understanding the geomagnetic hazard to national power grids. Advances in space research, 2010, vol. 45, no. 9, p. 1182-1190, doi: 10.1016/j.asr.2009.11.023.
Vasiliev A., Yasyukevich Y., Garashchenko A., et al. Computer vision for GNSS-based detection of the auroral oval boundary. International journal of Artificial Intelligence, vol. 19, no. 2, 2021.
Yue B., Liang J. Frame prediction using recurrent convolutional encoder with residual learning. AIP Conference Proceedings, AIP Publishing, 2018, vol. 1967, no.1, doi: 10.1063/1.5039073.
Zhou Y., Dong H., El Saddik A. Deep learning in next-frame prediction: a benchmark review. IEEE Access, 2020, vol. 8, pp. 69273-69283, doi: 10.1109/ACCESS.2020.2987281.
Zhang J. et al. DNN-based prediction model for spatio-temporal data. Proceedings of the 24th ACM SIGSPATIAL international conference on advances in geographic information systems, 2016, pp. 1-4, doi: 10.1145/2996913.2997016.
Shi X. et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting //Advances in neural information processing systems, 2015, vol. 28, doi: 10.48550/arXiv.1506.04214.
Walker J., Gupta A., Hebert M. Dense optical flow prediction from a static image. Proceedings of the IEEE international conference on computer vision, 2015, pp. 2443-2451, doi: 10.1109/ICCV.2015.281.
Liang X. et al. Dual motion GAN for future-flow embedded video prediction. Proceedings of the IEEE international conference on computer vision, 2017, pp. 1744-1752, doi: 10.48550/arXiv.1708.00284.
Liu Z. et al. Video frame synthesis using deep voxel flow. Proceedings of the IEEE international conference on computer vision, 2017, pp. 4463-4471, doi: 10.1109/ICCV.2017.478.
Mathieu M., Couprie C., LeCun Y. Deep multi-scale video prediction beyond mean square error. arXiv preprint, 2015, doi: 10.48550/arXiv.1511.05440.
Michalski V., Memisevic R., Konda K. Modeling deep temporal dependencies with recurrent grammar cells. Advances in neural information processing systems, 2014, vol. 27.
Lotter W., Kreiman G., Cox D. Deep predictive coding networks for video prediction and unsupervised learning. arXiv preprint,2016, doi: 10.48550/arXiv.1605.08104.
Srivastava N., Mansimov E., Salakhudinov R. Unsupervised learning of video representations using LSTMs. International conference on machine learning. PMLR, 2015, pp. 843-852, doi: 10.48550/arXiv.1502.04681.
Finn C., Goodfellow I., Levine S. Unsupervised learning for physical interaction through video prediction. Advances in neural information processing systems, 2016, vol. 29, doi: 10.48550/arXiv.1605.07157.
Wang Y. et al. Predrnn++: Towards a resolution of the deep-in-time dilemma in spatiotemporal predictive learning. International conference on machine learning, PMLR, 2018, pp. 5123-5132.
Oliu M., Selva J., Escalera S. Folded recurrent neural networks for future video prediction. Proceedings of the European conference on computer vision (ECCV), 2018, pp. 716-731.
Schmidhuber J. et al. Long short-term memory. Neural Computation, 1997, vol. 9, no. 8, pp. 1735-1780, doi: 10.1162/neco.1997.9.8.1735.
Yamashita R. et al. Convolutional neural networks: an overview and application in radiology. Insights into imaging, 2018, vol. 9, pp. 611-629, doi: 10.1007/s13244-018-0639-9.
Wang Z. et al. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing, 2004, vol. 13, no. 4, pp. 600-612, doi: 10.1109/TIP.2003.819861.

补充文件

附件文件

动作

1. JATS XML

下载

2. Fig. 1. Prepared data for network training

下载 (9MB)

索引源数据

3. Fig. 2. Real frames (top) and forecast frames (bottom)

下载 (4MB)

索引源数据

用户名
密码
记住我

忘记您的密码?	注册

用户名
密码
记住我

忘记您的密码?	注册