分词工具与词表生成工具

分词

开发套件用于分词的python脚本位于目录./applications/tools/data/wordseg/wordseg_lac.py：

文心中集成了LAC分词工具，运行该脚本前，需要先下载分词工具lac包，或者直接通过pip命令安装：

pip install lac

运行脚本 wordseg_lac.py：

 python wordseg_lac.py -i "输入文件夹的目录" -o "输出文件的目录"

wordseg_lac.py脚本的传参说明：

shell输入：
    python wordseg_lac.py -h
shell输出：
    optional arguments:
      -h, --help            show this help message and exit. 
      -i INPUT, --input INPUT                                # 分词目录，如果目录下有多个文件，则依次将目录下所有文件分词
      -o OUTPUT, --output OUTPUT                             # 指定分词结果文件保存的目录，分词后文件名为{原文件名_seg}后缀
      -c COLUMN_NUMBER, --column_number COLUMN_NUMBER        # 对指定列进行分词，如有多列使用逗号分割，默认为第1列

构建词表

如果用户想使用自己的样本集生成词表，则可使用上一节中的分词工具进行分词，得到分词后的样本文件后，直接使用词表生成工具，指定目录，生成自己的词表。词表生成工具位于tools/data/word_seg/build_voc.py，使用方式如下：

运行脚本build_voc.py

python build_voc.py -i "分好词的数据集目录路径" -o "生成的词表路径"

build_voc.py脚本的传参说明：

输入：
    python build_voc.py -h
输出：
    optional arguments:
      -h, --help            show this help message and exit
      -i INPUT, --input INPUT
      -o OUTPUT, --output OUTPUT
      -sep SEPERATOR, --seperator SEPERATOR
      -c COLUMN_NUMBER, --column_number COLUMN_NUMBER
      -thr FEQ_THRESHOLD, --feq_threshold FEQ_THRESHOLD
      -ew EXTRA_WORDS [EXTRA_WORDS ...], --extra_words EXTRA_WORDS [EXTRA_WORDS ...]
      -sw STOP_WORDS [STOP_WORDS ...], --stop_words STOP_WORDS [STOP_WORDS ...]

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

分词工具与词表生成工具

分词

构建词表

Files

README.md

Latest commit

History

README.md

File metadata and controls

分词工具与词表生成工具

分词

构建词表