You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
В ходе итерации необходимо разработать систему, которая будет определять значение заданного перечня атрибутов в документах (например ФИО, Дата подписания, От кого и т.д).
Документы в формате pdf.
Структура документов заранее неизвестна и может быть любой.
Значения атрибутов могут быть написаны от руки.
Система состоит из трех сервисов:
DocumentsOcrForAttribution - основной Net7 сервис. Принимает документ и список определяемых атрибутов через Web-api запрос (например через Postman). Реализует алгоритм работы системы, обращается к сервису Ocr и ИИ-классификатору. В своей логике содержит алгоритм, который определяет слова, которые потенциально могут быть значениями искомого атрибута. Алгоритм основывается на положении атрибута в документе и радиусу поиска возможных значений. В ответе на запрос пользователя выдает результат определения значения указанных атрибутов в документе.
OCR - сервис распознавания документом. Строится на основе Paddle OCR. Принимает документ от основного сервиса DocumentsOcrForAttribution и в ответе выдает распознанный текст с координатами. OCR сервис ничего не знает об атрибутах, он просто выполняет свое базовое распознавание текста.
AttributeClassifier - сервис на основе Pytorch. Сервис помогает определить основному сервису DocumentsOcrForAttribution к какому типу относятся потенциальные значения искомого атрибута. Например что из списка слов является ФИО, датой, адресом, цветом, денежной суммой и т.д
Все три сервиса должны запускатсья в docker и общаться между собой посредством web-api запросов.
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
В ходе итерации необходимо разработать систему, которая будет определять значение заданного перечня атрибутов в документах (например ФИО, Дата подписания, От кого и т.д).
Система состоит из трех сервисов:
DocumentsOcrForAttribution - основной Net7 сервис. Принимает документ и список определяемых атрибутов через Web-api запрос (например через Postman). Реализует алгоритм работы системы, обращается к сервису Ocr и ИИ-классификатору. В своей логике содержит алгоритм, который определяет слова, которые потенциально могут быть значениями искомого атрибута. Алгоритм основывается на положении атрибута в документе и радиусу поиска возможных значений. В ответе на запрос пользователя выдает результат определения значения указанных атрибутов в документе.
OCR - сервис распознавания документом. Строится на основе Paddle OCR. Принимает документ от основного сервиса DocumentsOcrForAttribution и в ответе выдает распознанный текст с координатами. OCR сервис ничего не знает об атрибутах, он просто выполняет свое базовое распознавание текста.
AttributeClassifier - сервис на основе Pytorch. Сервис помогает определить основному сервису DocumentsOcrForAttribution к какому типу относятся потенциальные значения искомого атрибута. Например что из списка слов является ФИО, датой, адресом, цветом, денежной суммой и т.д
Все три сервиса должны запускатсья в docker и общаться между собой посредством web-api запросов.
Схема работы системы
Алгоритм нахождения значений искомого атрибута
Beta Was this translation helpful? Give feedback.
All reactions