Skip to content

Latest commit

 

History

History
10 lines (7 loc) · 474 Bytes

to_do.md

File metadata and controls

10 lines (7 loc) · 474 Bytes

一些准备做的事情

  1. 程序里面的word2idx有关程序更改,程序中有很多重复调用,而且这个方法还需要建立词索引文件太麻烦了 finish

    1. 暂时就在他的程序基础上改,为他的程序多余操作进行优化,我只要加一个对数据集进行预处理的脚本就行 finish
    2. 分词 finish
    3. 去除停止词 finish
  2. 先测试微博的数据集可否

  3. data split into train and valid