文本学习

发表于 2017-05-04 | 分类于 MachineLearning | | 阅读次数

文本学习

词袋

每个词的频率

词袋属性

无序
长词
复合词

sklearn 词袋

低信息量词

停词

词干提取

词干提取算法（STEMMER）

TF-IDF

Term Frequency：词频

Inverse Document Frequency：逆向文件频率

实际上就是TF*IDF

更注重于罕见的词汇！有的时候，越是罕见的词越能够代表文章的相关意思！

TfidfVectorizer

参数

max_df，0.5，如果在%50的文档中出现了这个词，tfidf就会删除这个词

坚持技术分享，您的支持将鼓励我继续创作！