介绍:基于漢典网站内容,爬取汉字信息。可获取包括:拼音,笔画,结构,类型,字表,反应时,频率% 等汉字信息。
拼音py,笔画bh,结构jg,类型lx,字表zb,反应时rt,频率%zp
CorpusCharacterlist提供汉字字频统计
DataBase提供汉字辨认平均反应时
HanList包含两个表格分别为list1-2500个常用字和list2-1000个次常用字,从漢典站内抓取
hans文件内,以竖排第一列置入需要查询的字列并保存,程序会读取并重新写入字列中每个字的相关信息。每次使用查询前请新建sheet并删除原有的newhans表格。
因为用的正则表达式匹配对应内容,而关于字的类型(造字法),网页并没有特定的放置,所以匹配字段会出现丢失或匹配错误,有的字甚至没有标注是什么类型。因为比较懒暂时没有想办法解决。