Question on the preparation of geoacoustic observation data for identification of pre- and post-seismic anomalies

Cover Page

Cite item

Full Text

Abstract

The paper proposes a method for improvement of the quality of geophysical data preparation on the example of geoacoustic observations to train neural networks when solving the problem of identification of pre- and post-seismic anomalies. The method is based on the transformation of geoacoustic emission signal associated with deformation processes in near-surface rocks into three-dimensional images. A series of such images contains the information on signal characteristics dynamics. Thee-dimensional images are the matrices consisting of the the distribution vectors of selected characteristics (spectral, structural, statistical and so on). The structure, data tensor, is formed from a series of such images. It is supplied to the neural network input. Due to external factors impact (weather, industrial), a recorded geoacoustic signal is distorted. Thus, it is necessary to clean the initial data. In order to do this, we suggest using a neural network which clusters the prepared images and removes outliers in the obtained clusters. A new tensor is formed from the remaining images. It undergoes the cleaning procedure again. This process continues until no outliers are observed in the output data as the result of clustering. When the cleaning is over, the second neural network will be trained to identify common features and differences, as well as hidden patterns in the geoacoustic pulse flux. Application of the developed method for tensor cleaning, based on artificial intelligence technologies, allows us to improve significantly the quality of data preparation. The obtained results will be useful for the investigations in the fields of identification and classification of pre- and post-seismic anomalies in geoacoutstic emission signals associated with deformation processes in near-surface rocks in a seismically active region.

Full Text

Введение

Процессы, происходящие в очаге готовящегося землетрясения, вызывают изменение напряженно-деформированного состояния земной коры на значительном удалении от самого очага. Под действием деформационных процессов в приповерхностных породах происходит генерация импульсных акустических сигналов — сигналов геоакустической эмиссии (ГАЭ) [1-3]. Результаты исследований [4-9] показывают, что динамика характеристик сигналов ГАЭ может быть связана с изменениями напряженно-деформированного состояния приповерхностных пород. Таким образом, через обнаружение аномального поведения динамики характеристик сигналов ГАЭ можно опосредовано фиксировать изменения свойств среды при подготовке землетрясений и последующей релаксации остаточных напряжений [10].

Аномалии поведения динамики характеристик геоакустических сигналов можно классифицировать, представляя их в виде изображений и применяя нейронные сети и технологии глубокого обучения для их распознавания. Использование нейронных сетей в обработке геофизических сигналов осложняется их высокой нелинейностью и нестационарностью [11]. Это приводит к появлению большого числа ошибок в ходе обработки и возникновению явления переобучения уже на малом числе эпох обучения сети.

Настоящее исследование посвящено методу очистки геоакустических данных для более качественной классификации аномалий ГАЭ и оценки напряжённо-деформированного состояния приповерхностных пород в условиях постоянно протекающего сейсмо-тектонического процесса в Камчатском регионе.

Средства наблюдения

Регистрация, обработка и анализ сигналов геоакустической эмиссии производится при помощи аппаратно-программного комплекса, состоящего из двух пространственно разнесенных частей: стационарной части и автономной части, расположенной в отдаленном пункте наблюдений. Пространственно-разнесенные части комплекса объединены в единую сеть на основе радиомодемов с антеннами. Структурная схема комплекса представлена на рис. 1.

 

Рис. 1. Структурная схема аппаратно-программного комплекса.

[Figure 1. Structural scheme of the hardware-software complex.]

 

Автономная часть комплекса осуществляет измерение геоакустических сигналов приповерхностных осадочных пород, их оцифровку, запись на жесткий диск, подключенный к компьютеру, и дальнейшую передачу данных на стационарную часть. Стационарная часть выполняет прием получаемых данных, их сохранение на дисковом RAID-массиве сервера.

На сервере также происходит подготовка данных (выделение потока импульсов в сигнале, вычисление их характеристик и формирование трехмерных изображений) и их последующий анализ с применением нейронных сетей.

Система регистрации построена на основе пьезокерамического гидрофона, который обеспечивает приём акустического сигнала в диапазоне частот от 0.1 Гц до 10 кГц. Оцифровка регистрируемого сигнала производится с частотой дискретизации 48 кГц при помощи профессиональной звуковой карты M-Audio. Это позволяет регистрировать и записывать акустический сигнал в широком диапазоне частот в стандартном звуковом формате.

Методика подготовки данных

Фрагменты геоакустического сигнала преобразуются в 3D-отображения авторским методом [11]. Каждое отображение несет информацию о динамике выбранных (структурных, статистических, спектральных) характеристик сигнала за определенный период наблюдения. Будем рассматривать полученную серию отображений как множество, которое далее подвергается кластерному анализу. Это позволяет выделить подмножества близких по образу отображений динамики характеристик сигнала на различных фрагментах наблюдения — кластеры. Идентифицированные отображения собираются в тензоры данных для дальнейшей работы в сетях глубокого обучения для оценки напряжённо-деформированного состояния пород и идентификации пред- и постсейсмических аномалий. Для оценки качества обучения нейронной сети строились графики показателей точности классификации и ошибок классификации для обучающей и валидационной выборок.

Для подготовки обучающих тензоров использовался архив данных, полученных в ходе непрерывного мониторинга геоакустической эмиссии с сентября 2016 по декабрь 2019 года в пункте наблюдений «Карымшина». Строились отображения динамики распределения амплитуд геоакустических импульсов за период, равный 3 суткам. Отображения представлялись в формате RGB, размерностью 256×256.

Для обучения нейросети подготовлен набор отображений в сейсмически спокойные периоды и в окрестности сильных землетрясений. Рассматривались землетрясения, произошедшие в период с сентября 2016 по декабрь 2019 года с энергетическим классом Ks не менее 10,0. В региональном сейсмическом каталоге [11, 12] зарегистрировано 981 такое событие. Из них были отобраны землетрясения, для которых выполнялось условие

D/RD1,RD = 100,43x(KS4,6)/1,5,

где RD — радиус зоны Добровольского [13], D — расстояние от пункта наблюдений до гипоцентра землетрясения. Таким образом, было отобрано 31 землетрясение.

Было подготовлено три класса отображений, полученных накануне землетрясений («pred») — 31 отображение, непосредственно после землетрясений («post») — 31 отображение, и в сейсмически спокойный период («fon») — 325 отображений.

Количество данных в классах отличалось на порядок. Поэтому в ходе всех экспериментов выполнялось выравнивание данных с использованием синтетической генерации дополнительных копий. С этой целью применялся метод синтетической неполной избыточной выборки (SMOTE), решающий проблему дисбаланса классов. В результате исходный набор отображений увеличился практически в три раза (963 отображения). Кроме того, отмечая значимость классов «pred» и «post» в целевом обучении, был использован метод весового взвешивания. Для очистки кластеров отображений использовались методы из специализированной библиотеки для машинного обучения scikit-learn [14], реализующие обнаружение выбросов и дубликатов изображений на основе данных кластерного анализа. Значение порога выбросов для всех этапов экспериментов было постоянным и равным 0,90. Примеры получаемых отображений классов «pred», «post», «fon» представлены на рис. 2.

 

Рис. 2. Пример отображений классов: 0 – «pred», 1 – «fon», 2 – «post»

[Figure 2. Example of class presentation: 0 — «pred», 1 — «fon», 2 — «post».]

 

Ниже представлены результаты серии экспериментов по обучению нейронной сети типа ResNet с использованием подготовленных тензоров данных с различным уровнем очистки. Структура разработанной сверточной нейронной сети на базе архитектуры ResNet представлена в табл. 1.

 

Таблица 1

Структура сверточной нейронной сети на базе архитектуры ResNet

[Structure of a convolution neural network based on ResNet architecture]

Layer (type)

Output Shape

Param #

Connected to

img (InputLayer)

(None, 64, 64, 3)

0

layer1 (Conv2D)

(None, 62, 62, 64)

1,792

img[0][0]

layer2 (Conv2D)

(None, 60, 60, 64)

36,928

layer1[0][0]

maxpooling2d1

(None, 20, 20, 64)

0

layer2[0][0]

(MaxPooling2D)

 

 

 

layer3 (Conv2D)

(None, 20, 20, 64)

36,928

maxpooling2d1[0][0]

layer4 (Conv2D)

(None, 20, 20, 64)

36,928

layer3[0][0]

add2 (Add)

(None, 20, 20, 64)

0

layer4[0][0],

 

 

 

maxpooling2d1[0][0]

layer5 (Conv2D)

(None, 20, 20, 64)

36,928

add2[0][0]

layer6 (Conv2D)

(None, 20, 20, 64)

0

layer5[0][0]

add3 (Add)

(None, 20, 20, 64)

0

layer6[0][0],add2[0][0]

layer7 (Conv2D)

(None, 18, 18, 64)

36,928

add3[0][0]

layer8 (Conv2D)

(None, 64)

0

layer7[0][0]

(GlobalAveragePooling2D)

 

 

 

layer9 (Dense)

(None, 256)

16,640

layer8[0][0]

layer10 (Dropout)

(None, 256)

0

layer9[0][0]

layer11 (Dense)

(None, 3)

771

layer10[0][0]

 

Глобальные параметры нейросети при обучении составили: шаг движения по выборке — 32, количество итераций обучения — 64; объем валидационной выборки — 30%.

В эксперименте № 1 для подготовки тензора использовались данные без очистки. Так наглядно можно увидеть влияние выбросов на обучение подготовленной свёрточной нейросети. В экспериментах № 2, № 3 и № 4 для подготовки тензора использовались данные, полученные после одного, двух и трех этапов очистки соответственно. Параметры тензоров приведены в табл. 2.

 

Таблица 2

Описание параметров тензора данных в экспериментах

[Description of data tensor parameters in the experiments]

Класс

Число файлов до очистки

Число файлов после очистки

Размер обучающей выборки

Размер тестовой выборки

Эксперимент № 1

fon

325

325

305

101

post

31

31

303

98

pred

31

31

298

96

Эксперимент № 2

fon

325

321

235

86

post

31

28

223

98

pred

31

28

216

105

Эксперимент № 3

fon

321

321

233

88

post

27

27

214

107

pred

27

26

227

94

Эксперимент № 4

fon

321

321

212

89

post

27

26

216

98

pred

27

27

201

95

 

Обсуждение результатов

При обучении нейросети без очистки данных (рис. 3, эксперимент № 1) уже на 18 эпохе обучения наступает момент переобучения, что приводит к срыву данного процесса с быстро нарастающей ошибкой на валидационной выборке отображений. При первой же очистке данных (рис. 3, эксперимент № 2) результат обучения заметно улучшается, хотя и наблюдаются остаточные выбросы, порождаемые зашумленными данными.

 

Рис. 3. Графики обучения сети для четырёх экспериментов. Графики для обучающей выборки — синяя линия, для тестовой выборки – оранжевая.

[Figure 3. Graphs of network training for four experiments. Graphs for the training sampling — blue line, for the test sampling — orange line.]

 

На 36 эпохе наблюдается срыв процесса обучения нейросети с последующим отказом от обучения. Картина обучения на следующем этапе (рис. 3, эксперимент № 3) становится еще лучше. Срыв обучения наступает только на 46 эпохе, ошибка обучения становится меньше, чем на предыдущем этапе, а дисперсия выбросов заметно уменьшается. Завершение очистки кластеров отображений заканчивается на эксперименте № 4 (рис. 3, эксперимент № 4). Здесь картина обучения становится плавной, а показатели точности распознавания и минимума ошибки достигают наилучших значений. Отказ от обучения не присутствует. На завершение процесса очистки указывает следующий факт. Число отображений в кластерах на очередной итерации не изменяется, что можно принять как простое правило для определения этапа очистки данных.

Заключение

Разработан метод подготовки геоакустических данных для обучения нейронных сетей в рамках решения задачи идентификации пред- и постсейсмических аномалий. В основе метода лежит преобразование геоакустического сигнала в серию трёхмерных изображений, несущую информацию о динамике распределения некоторых характеристик сигнала. Предлагается проводить очистку подготовленных серий изображений путем удаления выбросов, полученных по результатам кластеризации нейронной сетью. Установлено, что для качественной подготовки данных достаточно провести три цикла очистки.

Таким образом, применение технологий искусственного интеллекта для обработки геофизических данных позволяет поднять на новый уровень методы идентификации и классификации обнаруживаемых аномалий характеристик геоакустических сигналов, которые можно связать с влиянием деформационных процессов на приповерхностные осадочные породы.

×

About the authors

Yury I. Senkevich

Institute of Cosmophysical Research and Radio Wave Propagation FEB RAS

Author for correspondence.
Email: senkevich@ikir.ru
ORCID iD: 0000-0003-0875-6112

Sci. (Tech.), Docent, Leading Researcher

Russian Federation, 684034, Paratunka, Mirnaya Str., 7

Mikhail A. Mishchenko

Institute of Cosmophysical Research and Radio Wave Propagation FEB RAS

Email: senkevich@ikir.ru
ORCID iD: 0000-0003-1958-5830

Ph. D. (Phys. & Math.), Leading Researcher, Lab. of Acoustic Research

Russian Federation, 684034, Paratunka, Mirnaya Str., 7

References

  1. Marapulets Yu. V., Shevtsov B. M. Mesoscale acoustic emission [Mezomasshtabnaya akusticheskaya emissiya], Vladivostok, Dalnauka, 2012, 126 p.(In Russian).
  2. Perezhogin A. S., Shevtsov B. M. Models of an intense-deformed condition of rocks before earthquakes and their correlation with geo-acoustic emission, Computational Technologies, 2009, vol. 14, no. 3, pp. 48–57, (In Russian).
  3. Marapulets Y. V., et. al. Geoacoustic emission response to deformation processes activation during earthquake preparation, Rus. J. of Pac. Geol, 2012, no. 6, 457–464. doi: 10.1134/S1819714012060048.
  4. Morgunov V. A., et. al. Geoacoustic harbinger of the Spitak earthquake, Journal of Volcanology and Seismology, 1991, no. 4, pp. 104-106 (In Russian).
  5. Dolgikh G.I., et al. Deformation and acoustic precursors of earthquakes, Doklady Earth Sciences, 2007, vol. 413, no. 1, pp. 281–285. doi: 10.1134/S1028334X07020341.
  6. Saltykov V. A., Kugaenko Y. A. Development of near-surface dilatancy zones as a possible cause for seismic emission anomalies before strong earthquakes [Razvitie pripoverhnostnyh zon dilatansii kak vozmozhnaja prichina anomalij v parametrah sejsmicheskoj jemissii pered sil’nymi zemletrjasenijami], Rus. J. of Pac. Geol., 2012, vol. 6, no. 1 pp. 86–95,(In Russian).
  7. Gregori G.P., et. al. “Storms of crustal stress” and AE earthquake precursors, Natural Haz. and Earth Sys. Sci., 2010. vol. 10, no. 2, pp. 319–337. doi: 10.5194/nhess-10-319-2010.
  8. Lukovenkova O., Marapulets Yu., Solodchuk A. Adaptive approach to time-frequency analysis of AE signals of rocks, Sens., 2022, vol. 22, no. 24:9798, doi: 10.3390/s22249798.
  9. Gapeev M., Marapulets Y. Modeling Locations with Enhanced Earth’s Crust Deformation during Earthquake Preparation near the Kamchatka Peninsula, Applied Sciences, 2022, vol. 13, no. 1:290, pp. 1–14. doi: 10.3390/app13010290.
  10. Marapulets Y., et. al. Sound Range AE as a Tool for Diagnostics of Large Technical and Natural Objects, Sensors, 2023, vol. 23, no. 3:1269, pp. 1–14. doi: 10.3390/s23031269.
  11. Senkevich Yu., et. al. Technique of informative features selection in geoacoustic emission signals [Metodika vydelenija informativnyh priznakov v signalah geoakusticheskoj jemissii], SPIIRAS, 2019, vol. 18, no. 5, pp. 1066–1092. doi: 10.15622/sp.2019.18.5.1066-1092.
  12. Kamchatka Branch of the Geophysical Survey of the Russian Academy of Sciences, Earthquakes Catalogue for Kamchatka and the Commander Islands. URL: http://sdis.emsd.ru/info/earthquakes/catalogue.php (access: 20.11.24).
  13. Chebrova A.Yu., et. al. Seismological data information system in Kamchatka branch of GS RAS: organization principles, main elements and key functions, Geophysical Research, 2020, vol. 21, no. 3, pp. 66–91.
  14. Dobrovol’skiy I.P. Mathematical theory of prediction and preparation of a tectonic earthquake [Matematicheskaya teoriya podgotovki i prognoza tektonicheskogo zemletryaseniya], Moscow, FIZMATLIT, 2009, 240 p. (In Russian).
  15. Pedregosa F., et al. Scikit-learn: Machine Learning in Python, Journal of Machine Learning Research, 2011, vol. 12, no. 85, pp. 2825–2830.

Supplementary files

Supplementary Files
Action
1. JATS XML
2. [Figure 1. Structural scheme of the hardware-software complex.]

Download (206KB)
3. [Figure 2. Example of class presentation: 0 — «pred», 1 — «fon», 2 — «post».]

Download (186KB)
4. [Figure 3. Graphs of network training for four experiments. Graphs for the training sampling — blue line, for the test sampling — orange line.]

Download (346KB)

Согласие на обработку персональных данных с помощью сервиса «Яндекс.Метрика»

1. Я (далее – «Пользователь» или «Субъект персональных данных»), осуществляя использование сайта https://journals.rcsi.science/ (далее – «Сайт»), подтверждая свою полную дееспособность даю согласие на обработку персональных данных с использованием средств автоматизации Оператору - федеральному государственному бюджетному учреждению «Российский центр научной информации» (РЦНИ), далее – «Оператор», расположенному по адресу: 119991, г. Москва, Ленинский просп., д.32А, со следующими условиями.

2. Категории обрабатываемых данных: файлы «cookies» (куки-файлы). Файлы «cookie» – это небольшой текстовый файл, который веб-сервер может хранить в браузере Пользователя. Данные файлы веб-сервер загружает на устройство Пользователя при посещении им Сайта. При каждом следующем посещении Пользователем Сайта «cookie» файлы отправляются на Сайт Оператора. Данные файлы позволяют Сайту распознавать устройство Пользователя. Содержимое такого файла может как относиться, так и не относиться к персональным данным, в зависимости от того, содержит ли такой файл персональные данные или содержит обезличенные технические данные.

3. Цель обработки персональных данных: анализ пользовательской активности с помощью сервиса «Яндекс.Метрика».

4. Категории субъектов персональных данных: все Пользователи Сайта, которые дали согласие на обработку файлов «cookie».

5. Способы обработки: сбор, запись, систематизация, накопление, хранение, уточнение (обновление, изменение), извлечение, использование, передача (доступ, предоставление), блокирование, удаление, уничтожение персональных данных.

6. Срок обработки и хранения: до получения от Субъекта персональных данных требования о прекращении обработки/отзыва согласия.

7. Способ отзыва: заявление об отзыве в письменном виде путём его направления на адрес электронной почты Оператора: info@rcsi.science или путем письменного обращения по юридическому адресу: 119991, г. Москва, Ленинский просп., д.32А

8. Субъект персональных данных вправе запретить своему оборудованию прием этих данных или ограничить прием этих данных. При отказе от получения таких данных или при ограничении приема данных некоторые функции Сайта могут работать некорректно. Субъект персональных данных обязуется сам настроить свое оборудование таким способом, чтобы оно обеспечивало адекватный его желаниям режим работы и уровень защиты данных файлов «cookie», Оператор не предоставляет технологических и правовых консультаций на темы подобного характера.

9. Порядок уничтожения персональных данных при достижении цели их обработки или при наступлении иных законных оснований определяется Оператором в соответствии с законодательством Российской Федерации.

10. Я согласен/согласна квалифицировать в качестве своей простой электронной подписи под настоящим Согласием и под Политикой обработки персональных данных выполнение мною следующего действия на сайте: https://journals.rcsi.science/ нажатие мною на интерфейсе с текстом: «Сайт использует сервис «Яндекс.Метрика» (который использует файлы «cookie») на элемент с текстом «Принять и продолжить».