人工智能的常用十种算法

114次阅读

导读:人工智能是科技研究中最热门的方向之一。

一、决策树

根据一些 feature(特征)进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上。

人工智能的常用十种算法插图

二、随机森林

随机森林是集成学习的一个子类,它依靠于决策树的投票选择来决定最后的分类结果。集成学习通过建立几个模型组合的来解决单一预测问题。集成学习的简单原理是生成多个分类器 / 模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。

随机森林的构建过程:

假设 N 表示训练用例(样本)个数,M 表示特征数目,随机森林的构建过程如下:

  1. 输入特征数目 m,用于确定决策树上一个节点的决策结果;其中 m 应远小于 M。

  2. 从 N 个训练用例(样本)中以有放回抽样的方式,取样 N 次,形成一个训练集,并用未抽到的用例(样本)作预测,评估其误差。

  3. 对于每一个节点,随机选择 m 个特征,决策树上每个节点的决定都是基于这些特征确定的。根据 m 个特征,计算其最佳的分裂方式。

  4. 每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用。

  • 重复上述步骤,构建另外一棵棵决策树,直到达到预定数目的一群决策树为止,即构建好了随机森林。其中,预选变量个数(m)和随机森林中树的个数是重要参数,对系统的调优非常关键。这些参数在调节随机森林模型的准确性方面也起着至关重要的作用。科学地使用这些指标,将能显著的提高随机森林模型工作效率。

人工智能的常用十种算法插图1

三、逻辑回归

基本上,逻辑回归模型是监督分类算法族的成员之一。Logistic 回归通过使用逻辑函数估计概率来测量因变量和自变量之间的关系。

逻辑回归与线性回归类似,但逻辑回归的结果只能有两个的值。如果说线性回归是在预测一个开放的数值,那逻辑回归更像是做一道是或不是的判断题。

逻辑函数中 Y 值的范围从 0 到 1,是一个概率值。逻辑函数通常呈 S 型,曲线把图表分成两块区域,因此适合用于分类任务。

人工智能的常用十种算法插图2

四、线性回归

所谓线性回归,就是利用数理统计中的回归分析,来确定两种或两种以上变量间,相互依赖的定量关系的一种统计分析方法。

线性回归(Linear Regression)可能是最流行的机器学习算法。它试图通过将直线方程与该数据拟合来表示自变量(x 值)和数值结果(y 值)。然后就可以用这条线来预测未来的值!

这种算法最常用的技术是最小二乘法(Least of squares)。这个方法计算出最佳拟合线,以使得与直线上每个数据点的垂直距离最小。总距离是所有数据点的垂直距离(绿线)的平方和。其思想是通过最小化这个平方误差或距离来拟合模型。

人工智能的常用十种算法插图3

五、朴素贝叶斯

朴素贝叶斯(Naive Bayes)是基于贝叶斯定理,即两个条件关系之间。它测量每个类的概率,每个类的条件概率给出 x 的值。这个算法用于分类问题,得到一个二进制“是 / 非”的结果。

朴素贝叶斯分类器是一种流行的统计技术,经典应用是过滤垃圾邮件。

人工智能的常用十种算法插图4

六、神经网络

Neural Networks 适合一个 input 可能落入至少两个类别里:NN 由若干层神经元,和它们之间的联系组成。第一层是 input 层,最后一层是 output 层。在 hidden 层和 output 层都有自己的 classifier。

input 输入到网络中,被激活,计算的分数被传递到下一层,激活后面的神经层,最后 output 层的节点上的分数代表属于各类的分数,下图例子得到分类结果为 class 1; 同样的 input 被传输到不同的节点上,之所以会得到不同的结果是因为各自节点有不同的 weights 和 bias,这也就是 forward propagation。

人工智能的常用十种算法插图5

七、K- 均值

K- 均值(K-means)是通过对数据集进行分类来聚类的。例如,这个算法可用于根据购买历史将用户分组。它在数据集中找到 K 个聚类。K- 均值用于无监督学习,因此,我们只需使用训练数据 X,以及我们想要识别的聚类数量 K。

先要将一组数据,分为三类,粉色数值大,黄色数值小。最开始先初始化,这里面选了最简单的 3,2,1 作为各类的初始值。剩下的数据里,每个都与三个初始值计算距离,然后归类到离它最近的初始值所在类别。
欺诈检测中应用广泛,例如医疗保险和保险欺诈检测领域

人工智能的常用十种算法插图6

八、支持向量机

要将两类分开,想要得到一个超平面,最优的超平面是到两类的 margin 达到最大,margin 就是超平面与离它最近一点的距离。

是一种用于分类问题的监督算法。支持向量机试图在数据点之间绘制两条线,它们之间的边距最大。为此,我们将数据项绘制为 n 维空间中的点,其中,n 是输入特征的数量。在此基础上,支持向量机找到一个最优边界,称为超平面(Hyperplane),它通过类标签将可能的输出进行最佳分离。

应用于面部识别、文本分类等

人工智能的常用十种算法插图7

给一个新的数据时,离它最近的 k 个点中,哪个类别多,这个数据就属于哪一类。
例子∶要区分“猫”和“狗”,通过“claws”和“sound”两个 feature 来判断的话,圆形和三角形是已知分类的了,那么这个“star”代表的是哪一类呢?

十、降维

降维(Dimensionality reduction)试图在不丢失最重要信息的情况下,通过将特定的特征组合成更高层次的特征来解决这个问题。主成分分析(Principal Component Analysis,PCA)是最流行的降维技术。

主成分分析通过将数据集压缩到低维线或超平面 / 子空间来降低数据集的维数。这尽可能地保留了原始数据的显著特征。

人工智能的常用十种算法插图8

白嫖机器学习算法资料 +60G 入门到进阶 AI 资源包(经典论文 / 书籍 / 项目课程 / 学习路线大纲)+ 专属专家一对一带论文 / 学习 / 就业 / 竞赛指导 + 技术问题答疑 +AI 公开课

关注公众 H:咕泡 AI,发送:211 获取

内含: 深度学习神经网络 +CV 计算机视觉学习(两大框架 pytorch/tensorflow+ 源码课件笔记)+NLP 等

适用人群

①准备毕业论文的学生

②准备跳槽,正在找工作的 AI 算法工程师等

③自学和准备转行到 AI 领域的人

④想巩固 AI 核心知识,查漏补缺的人

原文链接:https://www.bilibili.com/read/cv23340596/

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-08-17发表,共计2495字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。