当前位置：首页 > news >正文

网站建设德尔普灰色行业关键词优化

news 2025/8/3 3:33:51

网站建设德尔普,灰色行业关键词优化,光谷做网站推广,二类电商平台最近需要复习一下机器学习相关知识，记录一下一、简介线性回归：h(x)wTxbh(x)w^T x bh(x)wTxb logistic回归就是在线性模型的基础上加上一个sigmoid函数ggg，即h(x)g(wTxb)h(x)g(w^T xb)h(x)g(wTxb)。。。g(z)1/(1e−z)g(z)1/(1e^{-z})g(z)…

最近需要复习一下机器学习相关知识，记录一下

一、简介

线性回归： $h(x)=w^T x +b$

logistic回归就是在线性模型的基础上加上一个sigmoid函数 $g$ ，即 $h(x)=g(w^T x+b)$ $。$ $g(z)=1/(1+e^{-z})$ 。
它可以将一个线性回归中的结果转化为一个概率值。此时 $h (x)$ 表示的就是某件事发生的概率，我们也可以记为 $p (Y = 1∣ x)$

二、逻辑回归的损失函数

逻辑回归采用的是交叉熵的损失函数。

对于一般的二分类的逻辑回归来说交叉熵函数为： $J(θ)=−[yln(y′)+(1−y)ln(1−y′)]J(\theta)=-[yln(y')+(1-y)ln(1-y')]$ ,其中 $y^{'}$ 是预测值。

实际上我们求的是训练中所有样本的损失，因此：

$J(θ)=−1m∑[yiln(yi‘)+(1−yi)ln(1−yi‘)]J(\theta )=-\frac{1}{m}\sum[y_i ln(y_i`)+(1-y_i )ln(1-y_i`)]$

三、逻辑回归的优化方法

3.1 梯度下降

函数梯度的方向就是函数增长最快的方向，反之梯度的反方向就是函数减少最快的方向。因此我们想要计算一个函数的最小值，就朝着该函数梯度相反的方向前进。
假设我们需要优化的函数： $f(X)=f(x_1,...,x_n)$

首先我们初始化自变量，从 $X^(0)=(x_1^{(0)},...x_n^{(0)})$ 开始。设置一个学习率 $η\eta$ 。
对于任何 $i >= 0$ :

如果是最小化 $f$

$x1i+1=x1i−η∂f∂x1(x(i))x_1^{i+1}=x_1^{i}-\eta \frac{\partial{f}}{\partial{x_1}}(x^{(i)})$

$xni+1=xni−η∂f∂xn(x(i))x_n^{i+1}=x_n^{i}-\eta \frac{\partial{f}}{\partial{x_n}}(x^{(i)})$

反之如果求 $f$ 的最大值，则

$x1i+1=x1i+η∂f∂x1(x(i))x_1^{i+1}=x_1^{i}+\eta \frac{\partial{f}}{\partial{x_1}}(x^{(i)})$

$xni+1=xni+η∂f∂xn(x(i))x_n^{i+1}=x_n^{i}+\eta \frac{\partial{f}}{\partial{x_n}}(x^{(i)})$

3.2逻辑回归的优化

逻辑回归优化的目标函数：
$)=-\frac{1}{m}\sum[y_i ln(\sigma(w^T x +b))+(1-y_i )ln(1-\sigma(w^T x +b))]$

我们需要优化参数 $w, b$ ，从而使其在我们已知的样本 $X, y$ 上值最小。也就是我们常说的经验风险最小。

首先我们需要对 $J (w, b)$ 求导。

先令 $g=σ(wTx+b)g=\sigma(w^T x +b)$

$∂J(g)∂g=−∂∂g[yln(g)+(1−y)ln(1−g)]=−yg+1−y1−g\frac{\partial J(g)}{\partial g}=-\frac{\partial}{\partial g}[yln(g)+(1-y)ln(1-g)]=-\frac{y}{g}+\frac{1-y}{1-g}$

再令： $a=w^T x +b$

$∂g∂a=∂(11+e−a)∂a=−(1+e−a)−2−e−a=11+e−a1+e−a−11+e−a=σ(a)(1−σ(a))=g(1−g)\frac{\partial g}{\partial a}=\frac{\partial ({\frac{1}{1+e^{-a}}})}{\partial a}=-(1+e^{-a})^{-2}-e^{-a}=\frac{1}{1+e^{-a}}\frac{1+e^{-a}-1}{1+e^{-a}}=\sigma(a)(1-\sigma (a))=g(1-g)$

可以发现 $g=σ(a)g=\sigma(a)$ ，但是 $g$ 对 $a$ 求导之后居然是 $g (1 - g)$ ，在后续的梯度下降优化中，Sigmoid函数的这个性质可以减少很多不必要的计算。

接下来求需要优化的参数 $w, b$ 的梯度。
根据链式求导：

$∂J∂w=∂J∂g∂g∂a∂a∂w=(−yg+1−y1−g)g(1−g)x=(g−y)x\frac{\partial J}{\partial w}=\frac{\partial J}{\partial g}\frac{\partial g}{\partial a}\frac{\partial a}{\partial w}=(-\frac{y}{g}+\frac{1-y}{1-g})g(1-g)x=(g-y)x$

$∂J∂b=∂J∂g∂g∂a∂a∂b=(−yg+1−y1−g)g(1−g)=(g−y)\frac{\partial J}{\partial b}=\frac{\partial J}{\partial g}\frac{\partial g}{\partial a}\frac{\partial a}{\partial b}=(-\frac{y}{g}+\frac{1-y}{1-g})g(1-g)=(g-y)$

四、调用sklearn中的lr

import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
X=datasets.load_iris()['data']
Y=datasets.load_iris()['target']
from sklearn.linear_model import LogisticRegression
X_train,X_test,y_train,y_test=train_test_split(X,Y,test_size=0.1,stratify=Y)model=LogisticRegression(penalty='l2',class_weight=None,random_state=None,  max_iter=100)
model.fit(X_train,y_train)
model.predict_proba(X_test)