文本学习

文本学习

词袋

每个词的频率

词袋属性

  • 无序
  • 长词
  • 复合词

sklearn 词袋

低信息量词

停词

词干提取

  • 词干提取算法(STEMMER)

TF-IDF

Term Frequency: 词频

Inverse Document Frequency:逆向文件频率

实际上就是TF*IDF

更注重于罕见的词汇!有的时候,越是罕见的词越能够代表文章的相关意思!

TfidfVectorizer

参数

  • max_df,0.5,如果在%50的文档中出现了这个词,tfidf就会删除这个词
坚持技术分享,您的支持将鼓励我继续创作!