一些准备做的事情 程序里面的word2idx有关程序更改,程序中有很多重复调用,而且这个方法还需要建立词索引文件太麻烦了 finish 暂时就在他的程序基础上改,为他的程序多余操作进行优化,我只要加一个对数据集进行预处理的脚本就行 finish 分词 finish 去除停止词 finish 先测试微博的数据集可否 data split into train and valid