Аннотация
В статье рассмотрена разработка программного обеспечения с использованием современных методов машинного обучения для решения задачи распознавания и обработки рукописей на русском и казахском языках. Был проведен обзор и анализ решений, в которых использовалось машинное обучение для распознавания рукописных текстов. Кроме того, предусмотрена сегментация изображений на основе генетического алгоритма и модель распознавания рукописного текста на кириллице на основе нейронной сети. Успех моделей, основанных на глубоком обучении, зависел от новейших архитектур и доступности обширных аннотированных данных. Исходя из этих результатов, в данной статье рассматриваются вопросы распознавания рукописного текста на казахском языке. В данной статье рассмотрена модель распознавания рукописного текста на кириллице на основе искусственной нейронной сети. Архитектура этой нейронной сети состоит из слоев сверточной нейронной сети (англ. Convolutional neural network, CNN) и рекуррентной нейронной сети (англ. Recurrent neural network, RNN), а также классификации времени коннекции (англ. Connectionist Temporal Classification, CTC), которая переносит текст в последнюю версию. Эта модель была обучена датасету собранных нами рукописных текстов, что дало 90% точности распознавания символов. Проведен обзор коллекции рукописных слов на английском, русском, казахском языках. Проведены эксперименты на основе большой базы данных офлайн рукописных текстов на казахском языке под названием Kazakh Offline Handwritten Text Dataset (KOHTD). При использовании возможностей нейронных сетей распознавание рукописного ввода было обучено на уже существующих неполных наборах данных. Проверка результатов распознавания рукописного текста осуществляется в процентах. Все модели реализованы с использованием Python и библиотек TensorFlow, Keras, OpenMP Matplotlib. Распознавание рукописных текстов на казахском языке позволяет автоматизировать работу почтовых центров. На основе рукописной базы данных KOHTD проводились эксперименты с различными методами машинного обучения, а в тестовых данных были получены следующие результаты: Puigcever CER - 8.01%, WER-26,34%; Bluche CER-8,36%, WER - 28,95% и SimpleHTR CER - 2,45%, WER - 11,09%.
Ключевые слова: глубокое обучение, рукописные тексты, распознавание, база данных.