文本学习 发表于 2017-05-04 | 分类于 MachineLearning | | 阅读次数 文本学习词袋每个词的频率 词袋属性 无序 长词 复合词 sklearn 词袋低信息量词停词词干提取 词干提取算法(STEMMER) TF-IDFTerm Frequency: 词频 Inverse Document Frequency:逆向文件频率 实际上就是TF*IDF 更注重于罕见的词汇!有的时候,越是罕见的词越能够代表文章的相关意思! TfidfVectorizer参数 max_df,0.5,如果在%50的文档中出现了这个词,tfidf就会删除这个词 坚持技术分享,您的支持将鼓励我继续创作! 赏 微信打赏 支付宝打赏