人工智能的常用十种算法

206次阅读

导读：人工智能是科技研究中最热门的方向之一。

一、决策树

根据一些 feature(特征）进行分类，每个节点提一个问题，通过判断，将数据分为两类，再继续提问。这些问题是根据已有数据学习出来的，再投入新数据的时候，就可以根据这棵树上的问题，将数据划分到合适的叶子上。

二、随机森林

随机森林是集成学习的一个子类，它依靠于决策树的投票选择来决定最后的分类结果。集成学习通过建立几个模型组合的来解决单一预测问题。集成学习的简单原理是生成多个分类器 / 模型，各自独立地学习和作出预测。这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。

随机森林的构建过程：

假设 N 表示训练用例（样本）个数，M 表示特征数目，随机森林的构建过程如下：

输入特征数目 m，用于确定决策树上一个节点的决策结果；其中 m 应远小于 M。
从 N 个训练用例（样本）中以有放回抽样的方式，取样 N 次，形成一个训练集，并用未抽到的用例（样本）作预测，评估其误差。
对于每一个节点，随机选择 m 个特征，决策树上每个节点的决定都是基于这些特征确定的。根据 m 个特征，计算其最佳的分裂方式。
每棵树都会完整成长而不会剪枝，这有可能在建完一棵正常树状分类器后会被采用。

重复上述步骤，构建另外一棵棵决策树，直到达到预定数目的一群决策树为止，即构建好了随机森林。其中，预选变量个数（m）和随机森林中树的个数是重要参数，对系统的调优非常关键。这些参数在调节随机森林模型的准确性方面也起着至关重要的作用。科学地使用这些指标，将能显著的提高随机森林模型工作效率。

三、逻辑回归

基本上，逻辑回归模型是监督分类算法族的成员之一。Logistic 回归通过使用逻辑函数估计概率来测量因变量和自变量之间的关系。

逻辑回归与线性回归类似，但逻辑回归的结果只能有两个的值。如果说线性回归是在预测一个开放的数值，那逻辑回归更像是做一道是或不是的判断题。

逻辑函数中 Y 值的范围从 0 到 1，是一个概率值。逻辑函数通常呈 S 型，曲线把图表分成两块区域，因此适合用于分类任务。

四、线性回归

所谓线性回归，就是利用数理统计中的回归分析，来确定两种或两种以上变量间，相互依赖的定量关系的一种统计分析方法。

线性回归（Linear Regression）可能是最流行的机器学习算法。它试图通过将直线方程与该数据拟合来表示自变量（x 值）和数值结果（y 值）。然后就可以用这条线来预测未来的值！

这种算法最常用的技术是最小二乘法（Least of squares）。这个方法计算出最佳拟合线，以使得与直线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离（绿线）的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。

五、朴素贝叶斯

朴素贝叶斯（Naive Bayes）是基于贝叶斯定理，即两个条件关系之间。它测量每个类的概率，每个类的条件概率给出 x 的值。这个算法用于分类问题，得到一个二进制“是 / 非”的结果。

朴素贝叶斯分类器是一种流行的统计技术，经典应用是过滤垃圾邮件。

六、神经网络

Neural Networks 适合一个 input 可能落入至少两个类别里:NN 由若干层神经元，和它们之间的联系组成。第一层是 input 层，最后一层是 output 层。在 hidden 层和 output 层都有自己的 classifier。

input 输入到网络中，被激活，计算的分数被传递到下一层，激活后面的神经层，最后 output 层的节点上的分数代表属于各类的分数，下图例子得到分类结果为 class 1; 同样的 input 被传输到不同的节点上，之所以会得到不同的结果是因为各自节点有不同的 weights 和 bias，这也就是 forward propagation。