document-ocr

一个相对完整的文档分析和识别项目含以下五部分:

数据从网络抓取的公开上市公司年报数据 PDF　文件解析生成，有图片和文本的位置信息

文本数据是标注到文本行的，部分数据会有些瑕疵，共34000样本

可以根据标注数据生成文本行识别数据

单字和文本行数据合成工具能比较好的过滤字体中不支持的字符

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
crnn_ocr		crnn_ocr
dataset		dataset
layout_analysis		layout_analysis
single_word_ocr		single_word_ocr
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback