Skip to content

songjunyu/OCR-rename

Repository files navigation

数字识别与文件重命名

介绍

本文主要介绍一个OCR项目,本项目采用谷歌pytest数字识别引擎,进行实际应用开发。

挑战

本文需实现从jpg格式图片上识别出固定内容数字字符串,并用此字符串,将jpg文件重命名。 同时需要考虑文件遍历问题,文件夹嵌套问题,重命名文件已经存在等问题。

方案

图片数字识别重命名

直接采用OCR识别照片上文字,并且结合正则表达式,获得需要内容。jpg-reneme.py用于识别学号信息,对图片进行重命名。可以迭代文件夹 ,参数为最外层文件夹。

已有OCR文本,进行重命名

jpg文件有配套识别出来的TXT文件,这种情况,直接通过正则表达式,提取需要的内容,对对应的jpg文件进行重命名,同时将TXT文件删除。txt-rename.py根据txt 文件内容对jpg文件进行重命名和删除操作。

文件操作

移动

有时候碰到文件夹嵌套过于复杂,将最里层子文件夹提取出来,都集中放到上层文件夹,方便查看和处理。

删除指定图片

其中有许多不需要的文件,通过识别jpg文件的内容,根据是否匹配到对应字符串删除对用文件。 dele.py用于删除学生成绩表,通过字符识别,判断字符串中是否含有学生两个字,来进行删除相应的图片。 图片可以嵌套放在子文件夹中,传入参数为外层大文件夹

文件夹重命名

将文件夹按照指定格式,序列化重命名。dirrename.py用于将卷文件夹格式化为序列化命名 ,新文件夹格式名:A-2020-JX14-Y-{str(i).zfill(3)},对子文件夹命名,参数为外层大文件夹

移动文件

将所有文件移动到上一层文件夹中。mov.py用于将个人文件夹的图片文件移动到班级文件夹中,参数为年级大文件夹。

PDF文件处理和信息自动化著录

##介绍 本项目主要进行学生信息的合并著录处理,涉及到PDF文件拆分,合并,核对校验,添加照片,以及著录信息。

挑战

本项目需要将三个PDF文件,即学籍卡,成绩表,学位证明,三个文件拆分成单个人的,然后按照学号进行合并。

方案

通过PDF模块进行PDF的拆分,合并操作。中间需要通过正则表达式来获取学号信息,和其他信息。

mergemov.py合并PDF文件到一个文件夹

将下载下来的文件按照相同的专业合并学籍卡,学位证,成绩表合并到一个子文件夹中,每个专业一个子文件夹 #### debug.pyPDF文件检查 查找打不开的PDF文件,以及缺失的PDF文件,查找每个班级3个PDF中的问题。

PDFread.py将班级PDF拆分合并

将每个班级的三个PDF文件拆分为单个人的文件,然后通过学号进行合并,每个人一个PDF

pdf.py为PDFread的高层API

调用PDFread接口进行pdf合并 源文件命名需分别包含学籍卡,成绩表,学位证字符串

pdfgui.py项目的gui界面

PDF合并的的界面程序,集成整个项目的多个步骤,合并,著录,添加照片,改名。调用pdf.py,pdfaddimg.py,recordtoexcel.py,pdfrename.py 需要学生信息对照表,表中没有的信息可以打开pdf文件进行查找

pdfrename.py个人pdf文件重命名

pdf重命名,将pdf文件序列化命名并且拼接上其问价夹名

recordtoexcel.py著录

读取案卷内pdf文件名,文件名为学生学号; 在学生信息表中查找对用信息,著录卷内Excel表; 信息表中没有信息的通过pdf文件直接获取

pdfaddimg.py在pdf中添加照片

通过索引查找每个同学的照片,插入到pdf中

pagenumber.py获取pdf的页数,写入Excel中

获取每个学生pdf文件页数,写入一个空白Excel中,同时查看小于4页的、 有可能是写的年份有错误,最后合并到卷内Excel中

About

数字识别和pdf相关操作

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages