ПРОФИЛИРОВАНИЕ ПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНЫХ СЕТЕЙ НА ОСНОВЕ ДЕМОГРАФИЧЕСКИХ ДАННЫХ
PDF

Ключевые слова

Ключевые слова: социальные сети, социальные связи, идентификация пользователя, машинное обучение, классификация, анонимность, персональные данные, логистическая регрессия, случайны лес.

Аннотация

Социальные сети относятся к множеству технологий, которые облегчают обмен идеями и информацией между их пользователями, социальными сетями пользуются более 5,16 миллиарда человек, что составляет примерно 60% населения земного шара. В начале 2023 года 94,8% пользователей имели доступ к приложениям для чата и обмена сообщениями и веб-сайтам, за которыми вплотную следовали социальные платформы - 94,6% пользователей. Информация, которой делятся в социальных сетях и СМИ, распространяется очень быстро, почти мгновенно, что делает ее привлекательной для злоумышленников в плане получения информации. Существует множество проблем с безопасностью и конфиденциальностью, связанных с общей информацией пользователя, особенно когда пользователь загружает личный контент, такой как фотографии, видео и аудио. Злоумышленник может злонамеренно использовать общую информацию в незаконных целях. Риски еще выше, если мишенью становятся дети. В статье представлен краткий обзор подходов для анализа информации из профиля пользователей социальной сети, и была рассмотрена проблема выявления поддельных профилей в социальных сетях и прогнозирования демографических признаков (пола). Для решения задачи была обучена нейронная сеть, также был сформирован датасет, содержащий основную текстовую информацию с открытых страниц в социальных сетях. Применены подходы машинного обучения к проблеме двойной классификации страниц пользователей по их гендерной принадлежности. Результаты экспериментов показали, что разработанные классификаторы успешно классифицируют гендерно-ориентированные признаки. Опробован метод идентификации пользователя профиля, основанный на анализе данных дружеских связей и атрибутов.

Ключевые слова: социальная сеть, социальные связи, OSINT, машинное обучение, классификация, логистическая регрессия, случайные леса.

https://doi.org/10.51775/2790-0886_2023_62_3_133
PDF