基于朴素贝叶斯算法进行文本分类
1.sklearn 2.jieba 3.gensim 4.numpy
from classify import Classify import numpy as np
X_train = np.array([u"我想听张学友的歌",u"周杰伦的龙卷风",u"鹿晗有什么歌好听",u"姚明打篮球好厉害",u"张继科会打乒乓球",u"詹姆士是体育明星"])
Y_train = np.array([1,1,1,2,2,2])
Test_data = [u"我想听薛之谦的演员","邓亚萍是体育明星","刘翔是体育明星"]
//将X_train的数据分成1, 2两类
Model = Classify()
Model.load_W2V_Model("word2vec.model")
Model.train(X_train,Y_train)
Model.predict(Test_data)
//Test_data = [u"我想听薛之谦的演员","邓亚萍是体育明星","刘翔是体育明星"]
//result:[1 2 2]
Model.save_NBmodel( "NB.model")
NBmodel_test = Classify()
NBmodel_test.load_NBmodel("NB.model")
NBmodel_test.predict(Test_data)
下载地址: 链接: https://pan.baidu.com/s/1jIdwM7W 密码: 加我微信943272448
字典词库
朴素贝叶斯训练生成的模型
利用gensim库训练出来的一个word2vec模型所导出的文件
=======