介绍:该程序用于获得汉语文本参数,可获取的文本参数包括:文本所用汉字及其对应字频,用词及其词频,标点分句及其句长,总字数,用字数(去重),平均字频,总词数(有重复/无重复),平均词频,平均句长(长句/短句),最长句长。
字频和词频参考来自语料库在线,目前已知有词库不全的问题。
切分词引入了pkuseg,使用默认分词库。十分感谢其作者提供的基础功能。
分句匹配中文标点,没有添加英文标点,所以暂不支持英文文本的分句。
讲要分析的文本以txt的格式放入files文件夹下。
运行text_para.py获得result文件夹下的各个文本分析参数,保存为以各个文件名命名的excel文件。
运行con_excel.py获得根目录下合并各个文本参数的合并excel文件。
由于词库不全,很多词语匹配不到,所以单独做了一页排除词表格。
仅支持中文标点做分句,英文标点暂未添加。