Реализация примера по распознаванию документов с использованием OCR и ElasticSearch (ReportsOcrAndSearch) #32

AntonIV8 · 2023-08-14T09:34:41Z

AntonIV8
Aug 14, 2023
Collaborator

В рамках итерации необходимо создать тестовый стенд, демонстрирующий распознавание pdf документов по технологии OCR и сохранение их в текстовых файлах и поиск по содержимому документов.

Пользователю будет доступен интерфейс стандартного ember-приложения. Объектом данных будет выступать сущность Report, у которой будет один параметр - файл отчета.
Пользователь может загружать отчеты в формате pdf.
При загрузке файла, происходит его распознавание и сохранение в виде текстового файла. Также при этом происходит загрузка файла в индексную БД ElasticSearch.

В ember-приложении пользователю будет доступна функция поиска по тексту. В результате поиска будет выдан список имен файлов-отчетов, в содержании которого текст был найден.

Схема стенда:

Репозиторий: https://github.com/Flexberry/Flexberry.ReportsOcrAndSearch.Sample
Ветка: main

kafnevod · 2023-08-14T10:37:00Z

kafnevod
Aug 14, 2023

Весь вопрос какие PDF-файлы.

Если созданные в редакторе, то они довольно легко конвертируются различными open-source программами.

Распознавание по технологии OCR неободимо только для PDF-файлов, хранящих сканированные страницы

Мы будем поддерживать ТОЛЬКО второй вариант PDF?

Или оба?

1 reply

bratchikov Aug 31, 2023
Maintainer

Только сканы.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Flexberry PLATFORM

Реализация примера по распознаванию документов с использованием OCR и ElasticSearch (ReportsOcrAndSearch) #32

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 1 comment 1 reply

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

Select a reply

Flexberry PLATFORM

Реализация примера по распознаванию документов с использованием OCR и ElasticSearch (ReportsOcrAndSearch) #32

AntonIV8 Aug 14, 2023 Collaborator

Replies: 1 comment · 1 reply

kafnevod Aug 14, 2023

bratchikov Aug 31, 2023 Maintainer

AntonIV8
Aug 14, 2023
Collaborator

Replies: 1 comment 1 reply

kafnevod
Aug 14, 2023

bratchikov Aug 31, 2023
Maintainer