文本学习 发表于 2017-05-04 | 分类于 MachineLearning | | 阅读次数 文本学习词袋每个词的频率 词袋属性 无序 长词 复合词 sklearn 词袋低信息量词停词词干提取 词干提取算法(STEMMER) TF-IDFTerm Frequency: 词频 Inverse Document Frequency:逆向文件频率 实际上就是TF*IDF 更注重于罕见的词汇!有 ... 阅读全文 »
特征缩放 发表于 2017-05-04 | 分类于 MachineLearning | | 阅读次数 特征缩放$$x’=(x-x{min})/(x{max-}x_{min})$$ sklearn MinMaxScaler 阅读全文 »
聚类 发表于 2017-05-03 | 分类于 MachineLearning | | 阅读次数 聚类非监督学习降维K均值聚类(K-MEANSs)画出聚类的中心 分配 优化 sklearn clusterK均值聚类的局限 对于同意的一个集合,相同的聚类中心,得出的结果不一定相投 阅读全文 »
异常值处理 发表于 2017-05-03 | 分类于 MachineLearning | | 阅读次数 异常值的处理异常值的产生 传感器错误 录入错误 异常事件 异常值处理 处理流程 训练数据集 去掉%10的数据 再次训练 重复第二部,去掉与之前的%10的数据 应用欺诈检测 阅读全文 »
读《聪明人用方格笔记本》 发表于 2017-05-03 | 分类于 read | | 阅读次数 读《聪明人用方格笔记本》笔记三法则 使用方格笔记 标出题目 用三分法记录 事实 解释 行动 使用方格笔记本 行首对齐 在行首两三个字的地方写小标题 在比小标题往后两三个字的地方写内容 项目改变时空一行 注意流出空隙,留出进行信息整理的空间 学习中最重要的是什么? “尽可能多地往脑子里塞东西” ... 阅读全文 »
回归 发表于 2017-04-28 | 分类于 MachineLearning | | 阅读次数 回归连续监督学习 连续输出和离散输出的区别 这里的连续主要是指输出是连续的 回归线性方程 slope:斜率intercept:截距 斜率和截距斜率越大,上升越快 Sklearn中的线形拟合123456>>> from sklearn import linear_model> ... 阅读全文 »
数据以及数据的处理 发表于 2017-04-27 | 分类于 MachineLearning | | 阅读次数 机器学习中的数据处理数据的类型 数值类型 eg:薪水、年龄、评分 类别变量 eg:职位 时间序列 时间戳 文本数据 邮件类容 阅读全文 »
支持向量机 发表于 2017-04-25 | 分类于 MachineLearning | | 阅读次数 支持向量机(SVM)sklearn SVM分类SVC的参数C: kernel: 过度拟合 阅读全文 »
朴素贝叶斯 发表于 2017-04-25 | 分类于 MachineLearning | | 阅读次数 贝叶斯算法sklearn 贝叶斯分类123456789from sklearn.naive_bayes import GaussianNBfrom sklearn.metrics import accuracy_scoreclf = GaussianNB()# print(labels_train) ... 阅读全文 »