Replies: 1 comment 1 reply
-
Весь вопрос какие PDF-файлы. Если созданные в редакторе, то они довольно легко конвертируются различными open-source программами. Распознавание по технологии OCR неободимо только для PDF-файлов, хранящих сканированные страницы Мы будем поддерживать ТОЛЬКО второй вариант PDF? Или оба? |
Beta Was this translation helpful? Give feedback.
1 reply
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
В рамках итерации необходимо создать тестовый стенд, демонстрирующий распознавание pdf документов по технологии OCR и сохранение их в текстовых файлах и поиск по содержимому документов.
Пользователю будет доступен интерфейс стандартного ember-приложения. Объектом данных будет выступать сущность Report, у которой будет один параметр - файл отчета.
Пользователь может загружать отчеты в формате pdf.
При загрузке файла, происходит его распознавание и сохранение в виде текстового файла. Также при этом происходит загрузка файла в индексную БД ElasticSearch.
В ember-приложении пользователю будет доступна функция поиска по тексту. В результате поиска будет выдан список имен файлов-отчетов, в содержании которого текст был найден.
Схема стенда:
Репозиторий: https://github.com/Flexberry/Flexberry.ReportsOcrAndSearch.Sample
Ветка: main
Beta Was this translation helpful? Give feedback.
All reactions