Аннотация
Предварительная обработка аудиосигналов (preprocessing) и извлечение признаков из звуковых сигналов являются важным шагом в построении моделей глубокого обучения, а также оказывают значительное влияние на точность модели. Особенно при обнаружении чрезвычайных событий важно получать сигналы, содержащие описательные свойства сигналов по всем классам, поскольку обрабатываются как краткосрочные, так и долгосрочные, а также аудиосигналы на разных частотах. В работе были рассмотрены методы предварительной обработки, используемые для обнаружения событий на основе аудиосигналов, и типы признаков, получаемых из аудиосигналов. Цель исследовательской работы состоит в выполнении предварительную обработку аудиосигналов в соответствии с архитектурными особенностями модели глубокого обучения для выявления чрезвычайных событий социального характера и выбрать признаки, которые будут переданы в модель. Для обучения модели использовалась аудиодатасет, состоящий из восьми различных классов, описывающих чрезвычайные события. Аудиодатасет включает такие классы как плачь, сирена, пламя, звук оружия, крик, взрыв, разбитое стекло, лай собаки. Прежде всего, аудиосигналы преобразовывались в одномерные сигналы и разбивались на кадры, перекрытие которых составляло 50%. На следующем этапе были извлечены ярко выражающиеся признаки такие как хромограмма, спектральный контраст, Tonal centroid, mel-frequency cepstrum (MFC) и mel-frequency cepstral coefficients (MFCC). Полученные признаки от предварительно обработанных аудиосигналов, передаются в модель CNN-BiLSTM. Предлагаемая модель глубокого обучения используется для выявления и своевременного оповещения о чрезвычайных ситуациях социального характера в общественных местах и инфраструктурах с высокой концентрацией населения.
Ключевые слова: признаки, аудиосигналы, обработка аудиосигналов, глубокое обучение, аудиоклассификация, чрезвычайные события.