СОЗДАНИЕ МОДЕЛИ ОБНАРУЖЕНИЯ НЕНОРМАТИВНОЙ ЛЕКСИКИ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ
PDF

Ключевые слова

Машинное обучение
Обнаружение
Язык вражды
Социальная сеть
Классификация

Аннотация

В этой исследовательской работе описывается использование алгоритмов машинного обучения для предварительной идентификации ненормативной лексики в онлайн-контенте из-за опасений по поводу растущего использования ненормативной лексики в социальных сетях, таких как Twitter. В настоящей статье были проведены сравнительные исследования для разработки специального программного обеспечения с использованием методов машинного обучения для эффективного обнаружения и мониторинга языка ненависти, чтобы минимизировать негативное влияние языка ненависти на отдельных лиц и сообщества. Научная новизна данной исследовательской работы заключается в том, что был определен алгоритм, обеспечивающий наиболее эффективную точность автоматического обнаружения нецензурных слов среди алгоритмов машинного обучения. В результате эксперимента была оценена эффективность вышеперечисленных методов выявления оскорбительных слов в Твиттере. Цель статьи — составить набор данных нецензурных слов, собранных из различных источников и одобренных экспертами, чтобы убедиться, что модель обнаружения нецензурных слов работает эффективно. Практическая значимость данной исследовательской работы заключается в том, что с помощью методов машинного обучения предлагается комплексный метод обнаружения ненормативной лексики в Твиттере, а также предоставляется модель обнаружения и программное обеспечение для распознавания сложных элементов ненормативной лексики в онлайн комментариях.

Ключевые слова: машинное обучение, обнаружение, язык вражды, социальная сеть, классификация.

https://doi.org/10.51775/2790-0886_2023_62_3_56
PDF