Аннотация
Согласно мировой и национальной статистике, Казахстан находится в авангарде преступности, но не в лидерах. Быстрое развитие технологий и Интернета облегчает повседневную жизнь людей и открывает множество возможностей. В то же время количество пользователей Интернета растет, и количество криминальной информации в Интернете растет. Статья подчеркивает актуальность сортировки информации из веб-ресурсов или социальных сетей. Преступная информация в Интернете представлена в основном в текстовой форме. На программном языке Python написана уникальная программа для сортировки информации в местной популярной социальной сети ВКонтакте на криминальную и не криминальную информацию. Эта статья направлена на сортировку баз информации, собранной с веб-ресурсов на языке программирования Python. Основной особенностью программы является наличие возможности определять криминогенные данные из любых баз данных, собранных в текстовом формате. Новизна исследовательской работы заключается в том, что язык программирования Python широко распространен в среде разработки, и это дает возможность интегрировать данную программу в разных направлениях разработки, таких как мобильные предложения, веб-разработка и т. д. Это, в свою очередь, дает возможность обществу сортировать любую информацию и выявлять криминогенную информацию. В программах обучения использовались данные, собранные двумя разными способами. Они представляют собой собственный набор данных с открытым веб-ресурсом и набор данных, собранных путем парсинга из социальной сети Вконтакте. Для классификации информации использовались встроенные классификаторы, такие как Kneighborsclassifier и LogisticRegression в Python.
Ключевые слова: криминогенная информация, классификатор, данные, точность, семантический анализ.