数据食材选用参考:NLP中必不可少的语料资源
jieba分词模块参考官方文档啦~
# 本程序用于将搜狗语料库中的文本进行分词,并且去除停用词# coding=utf-8importjiebaimportjieba.possegaspsegimporttimeimportos'''
训练集:1200
测试集:200
'''# 文本分词defcutText(dirname):# dirname数据目录forcategoryinos.listdir(dirname):catdir=os.path.join(dirname,category)ifnotos.path.isdir(catdir):continuefiles=os.listdir(catdir)i=0
下一篇:变量 var