TF与IDF 发表于 2019-03-31 | 分类于 nlp (一) 定义 TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率),一种用于资讯检索和资讯探勘的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中 ... 阅读全文 »
归一化与标准化 发表于 2019-03-27 | 更新于 2019-03-31 | 分类于 数据挖掘 (一) 特征缩放定义 特征缩放是用来统一资料中的自变项或特征范围的方法,在资料处理中,通常会被使用在资料前处理这个步骤。因为在原始的资料中,各变数的范围大不相同。 (二) 特征缩放的目的 对于大多数的机器学习算法和优化算法来说,将特征值缩放到相同区间可以使得获取性能更好的模型。 例如: (a)有 ... 阅读全文 »
朴素贝叶斯分类法 发表于 2019-02-23 | 更新于 2019-10-12 | 分类于 机器学习 (一) 前言 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。采用统计学习中的三要素方法对朴素贝叶斯分类器进行分析,朴素贝叶斯分类基于朴素贝叶斯模型,通过期望风险最小化方法来选择最优化模型空间中的最优解,最后可以采用最大似然估计或者贝叶斯估计求解分类器。 (二) 核心依赖1. 贝叶斯 ... 阅读全文 »
梯度下降法详解 发表于 2018-11-20 | 更新于 2020-04-04 | 分类于 机器学习 (一) 引言 试想,某人在山顶,并且四周全是雾(霾)完全无法辨别方向,该怎么以最快速度下山呢?对喽,就是沿着坡度最陡的方向下山。但是,哪里又是坡度最陡的路线呢?在伸手不见五指的情况下只能把四面八方都测量一遍,找出最陡峭的方向,就这样走一步测一遍就可以很快下山了,当然这样走下去,有可能我们不能走到 ... 阅读全文 »
插入排序 发表于 2018-11-18 | 更新于 2018-11-19 | 分类于 基础算法 (一) 算法描述 将n个元素的数列分为已有序和无序两个部分,每次处理就是将无序数列的第一个元素与有序数列的元素从后往前逐个进行比较,找出插入位置,将该元素插入到有序数列的合适位置中。 (二) 算法分析 最差时间复杂度:\(O(n^2)\) 最好时间复杂度:\(O(n)\) 平均时间复杂度:\ ... 阅读全文 »
折半插入排序 发表于 2018-11-18 | 更新于 2018-11-19 | 分类于 基础算法 (一) 算法描述 折半插入排序是直接插入排序的一种优化,在直接插入排序中待排序的元素需要与有序数列的每个元素从后往前逐个进行比较,直接插入排序对基本有序数列具有很高的排序效率,但是当乱序情况下,其比较次数会很多。折半插入排序在直接排序的基础上在位置查找部分采用折半(二分查找)算法进行插入位置的确 ... 阅读全文 »