GPT可以快速上手的的数据分析方法

132次阅读

视频链接:https://www.bilibili.com/video/BV1fL411e7S4/?vd_source=ccd0a39aa266e9fa1d50708e47c72518

以下为可以用视频里的教程测试过可用的一些分析方法,大家 红色部分 替换模版就行啦!这里有最容易理解的 介绍 可以调整的参数,希望这个专栏可以成为大家使用的一个手册,目前这个专栏讲的都是一些比较基础的方法,如果大家希望学习比较进阶一点的内容可以私信告诉我哦。

  1. 线性回归 Linear Regression:专门用来预测一个具体的数字,比如房价

    • 最简单的线性回归,英文名:linear regression,用一条线(根据数据有多少列递增)去找适应整个数据集,可以看下面一个图来理解一下,可以调整的参数暂无,实际可以调整的参数一般都不建议调整。

    • 线性回归加上 L1 正则化,英文名:lasso regression,和最简单的线性回归很像,唯一的不同是加上了 L1 正则化,这个看起来很复杂,实际上就是为了简化模型,让模型能够在测试中获得更高的正确率。L1 的特点是,会剔除掉不相关的变量,比如说预测房价和你的身高没啥关系,如果你在数据里有身高这一项,L1 大概率会让身高对于房价的影响降为 0。可以调整的参数:

      • alpha:L1 的强度,可以设定为从 0 到正无穷,数字越大,正则化力度越强,越无关的变量就会越变 0

    • 线性回归加上 L2 正则化,岭回归,英文名:ridge regression,和 L1 回归很像,唯一的不同是换成了 L2 正则化,实际上也是为了简化模型,让模型能够在测试中获得更高的正确率。L2 的特点是,会降低不相关的变量的影响,但不会成为 0 ,比如说预测房价和你的身高没啥关系,如果你在数据里有身高这一项,L2 大概率会让身高对于房价的影响接近 0,但不会成为 0。可以调整的参数:

      • alpha:L2 的强度,可以设定为从 0 到正无穷,数字越大,正则化力度越强,越无关的变量就会越变 0

GPT可以快速上手的的数据分析方法插图
不同线性回归比较,这里可以看到怎么用一条线去适应数据集

    2. 逻辑回归 Logistic Regression,类似线性回归,但是这个是用来专门做 分类 的,比如通过各种数据判断一个交易是不是虚假的(虚假或不虚假两类)。可以调整的参数:

    • penalty:也就是正则化选择 可选择{'l1', 'l2', None, 'elasticnet'}。默认是 l2。l1 是 L1 正则化,l2 是 L2 正则化(上面的线性回归部分都有详细的解释),None 是没有正则化,elasticnet 是 L1 和 L2 都有

    • C:这个是正则化的倒数,默认是 1,注意这里和线性回归有区别,这个数字小,正则化越强,越大越弱

    • l1_ratio:这个 不需要 加,如果 你上面的 penality 选择的不是elasticnet,如果你加的话,这个数字代表你 l1 和 l2 的比重

    3. 支持向量机 SVM:Support Vector Machine,可以理解为一个优化的线性回归,可以看一下下面的图来理解一下。可以调整的参数:

    • C:这个是正则化的倒数,默认是 1,注意这里和线性回归有区别,这个数字小,正则化越强,越大越弱

    • kernel:默认是 rbf 可选择的是 {‘linear’,‘poly’,‘rbf’,‘sigmoid’}。这个 比较进阶,可以理解为一种让模型能够适应更复杂的数据,如果只想线性的话可以考虑选择 linear

GPT可以快速上手的的数据分析方法插图1
SVM 对比线性回归,可以看到 SVM 给出了最优的线

    4. 随机森林 random forest,可以把这个理解为另一种 分类 的办法,下图可以看一下。随机树的优点就是快而且自带正则化效果。可以调整的参数

    • n_estimators:你想要多少棵树,默认 100,一般而言越大越正则化

    • criterion:这个比较进阶,可以随便选一个,默认 gini。可以选择{“gini”,“entropy”,“log_loss”}

    • min_samples_split: 这个比较进阶,默认 2,最少有多少个数据点才能分出新的叶子,可以按照正确情况来调整

    • min_samples_leaf: 这个比较进阶,默认 1,每一个末端叶子最少有多少个数据点,按照正确情况来调整

GPT可以快速上手的的数据分析方法插图2
随机森林,可以看到随机生成多个树,然后投票

原文链接:https://www.bilibili.com/read/cv23184936/

正文完
 
不知道
版权声明:本站原创文章,由 不知道 2023-07-10发表,共计1771字。
转载说明:声明:本站内容均来自互联网,归原创作者所有,如有侵权必删除。 本站文章皆由CC-4.0协议发布,如无来源则为原创,转载请注明出处。