登录
原创

机器学习菜鸟的学习笔记(5)

专栏学渣的机器学习之路
发布于 2020-10-29 阅读 352
  • Python
  • 机器学习
原创

逻辑回归

简单介绍

问题的提出:

预测变量y是离散值时候该怎么处理,也就是所谓的分类问题

分类问题:

假设有一堆属性值(自变量),通过这些属性判断这个东西到底属于0分类还是1分类。 比如:通过邮件的很多属性,判断该邮件是否为垃圾邮件;判断某次交易是否为欺诈;判断肿瘤是良性还是恶性等等。

为什么使用逻辑回归而不是线性回归?直观的想法:

线性回归要求自变量和因变量均为数值型变量,取值范围为实数轴,但二分类问题的y天然不满足,只取在0到1之间,因此直接使用线性回归的方法也是不合适的,要先对其进行变换,转换到实数轴之后再用类似于线性回归的方法进行建模。

例子:通过肿瘤的大小来判断肿瘤是否为良性

用直线(线性)拟合这下图中红色X标记的样本点,在直线上的一个0.5的点为分界点,大于0.5是恶性反之是良性的。
image.png

如果还有一个样本点表示的肿瘤尺寸比较大,再用直线拟合就有问题了。通过拟合直线也可以看出,即便h(x)的值很小,但它依然可能是恶性肿瘤。这个阈值就要设置的非常小,就因为加了一个样本,使得使用直线就显得效果很差。

image.png

用不了直线没有关系,我们有其他线可以用!再之后的笔记里将会详细阐述

评论区

Nexus_G
13粉丝

失学青年面临失业

1

0

0

举报