当前位置: 首页 > news >正文

网站icp备案申请流程输入搜索内容

网站icp备案申请流程,输入搜索内容,网页设计素材模版,wordpress建站教程费用数据预处理之数据归一化 一、摘要二、数据归一化概念三、数据归一化实现方法3.1 最值归一化方法3.2 均值方差归一化方法 一、摘要 本文主要讲述了数据归一化(Feature Scaling)的重要性及其方法。首先通过肿瘤大小和发现时间的例子,说明了不同…

数据预处理之数据归一化

  • 一、摘要
  • 二、数据归一化概念
  • 三、数据归一化实现方法
    • 3.1 最值归一化方法
    • 3.2 均值方差归一化方法

一、摘要

本文主要讲述了数据归一化(Feature Scaling)的重要性及其方法。首先通过肿瘤大小和发现时间的例子,说明了不同量纲特征在距离计算中可能导致偏差,从而引出数据归一化的必要性。接着,介绍了最值归一化(Normalization)的概念和方法,即将数据映射到0-1之间的尺度,并指出其适用于分布有明显边界的情况。最后,还指出了最值归一化的一个缺点,即受异常值影响较大。

二、数据归一化概念

  1. 归一化是指一种简化计算的方式,将数据经过处理之后限定到一定的范围之内,一般都会将数据限定在[0,1]。数据归一化可以加快算法的收敛速度,而且在后续的数据处理上也会比较方便。
  2. 数据归一化的重要性
    1. 数据归一化是机器学习中非常重要的一步,也称为特征缩放
    2. 归一化的目的是使数据在不同特征之间具有相同的尺度,以便更好地进行分类或其他机器学习任务。
  3. 另外,归一化算法是一种去量纲的行为,关于量纲对于计算的影响可以举这样一个例子:使用肿瘤大小(厘米)和发现时间(天)作为特征进行分类。
    在这里插入图片描述
    未归一化时,距离计算主要受发现时间影响,因为时间单位的差异导致数据尺度不同。通过调整时间单位为年,可以使得距离计算更准确地反映肿瘤大小的重要性。归一化的作用就是去除这样的量纲给计算带来的影响。

三、数据归一化实现方法

3.1 最值归一化方法

  1. 最值归一化将数据映射到0到1之间。
  2. 方法:对每个特征求最大值和最小值,然后使用公式(x - xmin) / (xmax - xmin)进行转换。
    在这里插入图片描述
  3. 适用于数据分布有明确边界的情况,如考试成绩像素值
  4. 缺点:对异常值敏感,可能影响归一化结果。
  5. 注意事项
    在执行归一化的算法时有一个地方需要注意,因为公式 y=(x-MinValue)/(MaxValueMinValue)的分母是 MaxValue-MinValue,如果某一个字段的最大值和最小值是相同的,会出现分母为零的情况。所以对于字段数据全部相同的情况要加以判断,通常来讲如果当前字段全部相等且为非零数值,就转换为 1 来处理。如果当前字段全部数值都是 0,那就直接保留 0。
  6. 最值归一化的实现
    • 整型向量数据的归一化代码

      import numpy as np
      # 随机生成向量,其中每个向量的数值是0-100,生成100个
      x = np.random.randint(0,100,size=100)
      # 根据最值归一化公式,实现Int类型数据的归一化
      # 实现最值归一化公式,返回结果是一个向量,其中每一个元素的值就处于[0,1]之间
      (x - np.min(x)) / (np.max(x) - np.min(x))
      

      在jupyter中执行结果:
      在这里插入图片描述

    • 浮点型矩阵数据的归一化代码

      # 生成50x2的矩阵,其中数值都在0-100之间
      X = np.random.randint(0,100,(50,2))
      # 将整型的矩阵转成浮点型矩阵
      X = np.array(X,dtype=float)
      # 将X矩阵数据进行最值归一化,由于矩阵的列数是2列,因此分别需要对矩阵的每一列进行最值归一化处理,如有多列,则使用循环即可
      for col in range(0,2):# 对X中每列进行最值归一化X[:,col] = (X[:,col] - np.min(X[:,col])) / (np.max(X[:,col]) - np.min(X[:,col]))
      # 可以将X矩阵归一化之后的数据绘制出来,验证其中每列数值是否处于[0,1]之间
      import matplotlib.pyplot as plt
      plt.scatter(X[:,0],X[:,1])
      plt.show()
      

      执行结果:
      在这里插入图片描述
      此时,可以看出图中横纵坐标的数值处于[0,1]之间,说明X矩阵的数据已经完成了最值归一化。

    • 查看X矩阵中的均值和方差

      # 查看X矩阵方差
      [(np.std(X[:,col])) for col in range(0,2)]
      # 查看X矩阵方差
      [(np.std(X[:,col])) for col in range(0,2)]
      

      执行结果:
      在这里插入图片描述

3.2 均值方差归一化方法

  1. 均值方差归一化将数据转换为均值为0,方差为1的分布。

  2. 方法:用每个特征减去均值,再除以方差。
    在这里插入图片描述
    S为方差,Xmean为均值。

  3. 适用于数据分布没有明确边界的情况,如收入分布。

  4. 优点:不受异常值影响,使数据分布更加合理。

  5. 代码实现过

    • 实现步骤及效果:

      • 生成随机矩阵并进行均值方差归一化。
      • 步骤:求均值和方差,减去均值,再除以方差。
      • 结果矩阵中的元素不保证在0到1之间,但均值为0,方差为1。
    • 编写代码

      X = np.random.randint(0,100,(50,2))
      X = np.array(X,dtype=float)
      # 根据均值方差归一化公式,实现X矩阵的均值方差归一化实现代码
      for col in range(0,2):X[:,col] = (X[:,col] - np.mean(X[:,col])) / np.std(X[:,col])
      # 绘制图像查看效果
      plt.scatter(X[:,0],X[:,1])
      plt.show()
      

      执行效果:
      在这里插入图片描述

    • 查看X矩阵中的均值和方差是否接近或等于0和1:

      • 查看X矩阵的每列数据的均值是否接近或等于0

        # 通过图像查看并不是很直观,因此,我们查看X矩阵的每列数据的均值是否接近或等于0
        [(np.mean(X[:,col])) for col in range(0,2)]
        

        执行结果:
        在这里插入图片描述

        浮点数精度限制:计算机在存储和处理浮点数时存在精度限制。不同编程语言和系统对于浮点数的表示遵循 IEEE 754 标准,常见的单精度浮点数(float)通常有大约 7 位十进制有效数字,双精度浮点数(double)大约有 15 - 16 位十进制有效数字。当一个数的绝对值小于计算机所能表示的最小非零浮点数时,就可能会出现下溢情况,计算机可能会将其当作 0 处理。不过, -1.3322676295501878e - 17 一般不会出现这种情况,大多数计算机环境能正常表示它。
        实际应用场景的误差容忍度:在许多实际的计算和应用中,我们会设定一个误差范围(也称为容差)。如果一个数的绝对值小于这个容差,就可以将其当作 0 处理。例如,在数值计算、物理模拟等领域,为了简化计算或者忽略极小的误差,常常会这么做。以下是 Python 示例代码,演示了如何根据容差判断一个数是否近似为 0:

        num = -1.3322676295501878e-17
        tolerance = 1e-15
        if abs(num) < tolerance:print("在给定容差范围内,该数近似为 0")
        else:print("该数不等于 0")
        

        在这里插入图片描述

      • 查看X矩阵的每列数据的方差是否接近或等于1

        # 通过图像查看并不是很直观,因此,我们查看X矩阵的每列数据的方差是否接近或等于1
        [(np.std(X[:,col])) for col in range(0,2)]
        

        执行结果:
        在这里插入图片描述


文章转载自:
http://dinncoarrogate.stkw.cn
http://dinncothousands.stkw.cn
http://dinncoregicidal.stkw.cn
http://dinncoepochmaking.stkw.cn
http://dinncofucker.stkw.cn
http://dinncoemulsive.stkw.cn
http://dinncoredtop.stkw.cn
http://dinncofarsi.stkw.cn
http://dinncohendiadys.stkw.cn
http://dinncoger.stkw.cn
http://dinncocapriciously.stkw.cn
http://dinncopunctated.stkw.cn
http://dinncocool.stkw.cn
http://dinncocalorimetrist.stkw.cn
http://dinncotowing.stkw.cn
http://dinncogui.stkw.cn
http://dinncohama.stkw.cn
http://dinncozincograph.stkw.cn
http://dinncochloritic.stkw.cn
http://dinncotrudy.stkw.cn
http://dinncoprejudication.stkw.cn
http://dinncovolubly.stkw.cn
http://dinncofairness.stkw.cn
http://dinncoeligibly.stkw.cn
http://dinncocobblestone.stkw.cn
http://dinncomainspring.stkw.cn
http://dinncokamela.stkw.cn
http://dinnconitinol.stkw.cn
http://dinncotelangiectasis.stkw.cn
http://dinncowhom.stkw.cn
http://dinnconeurolinguistics.stkw.cn
http://dinncoicteric.stkw.cn
http://dinncoesbat.stkw.cn
http://dinnconondisjunction.stkw.cn
http://dinncoproconsul.stkw.cn
http://dinncodimission.stkw.cn
http://dinncomorna.stkw.cn
http://dinncophysiographical.stkw.cn
http://dinnconylghai.stkw.cn
http://dinncowoodskin.stkw.cn
http://dinncogratifying.stkw.cn
http://dinncojeepers.stkw.cn
http://dinncotented.stkw.cn
http://dinncomagnoliaceous.stkw.cn
http://dinncooutlook.stkw.cn
http://dinncosalacious.stkw.cn
http://dinncounivariate.stkw.cn
http://dinncoderogation.stkw.cn
http://dinncoellipsoidal.stkw.cn
http://dinncoclaudicant.stkw.cn
http://dinncosalivary.stkw.cn
http://dinncoenfant.stkw.cn
http://dinncoaftersensation.stkw.cn
http://dinncorephrase.stkw.cn
http://dinncotheanthropical.stkw.cn
http://dinncosyngarny.stkw.cn
http://dinnconoseglasses.stkw.cn
http://dinncopropagator.stkw.cn
http://dinncoconcernful.stkw.cn
http://dinncoarcheolithic.stkw.cn
http://dinncorepentance.stkw.cn
http://dinncotentie.stkw.cn
http://dinncotoe.stkw.cn
http://dinncomeander.stkw.cn
http://dinncoeuclidian.stkw.cn
http://dinncocauserie.stkw.cn
http://dinncobeadhouse.stkw.cn
http://dinncoapocynthion.stkw.cn
http://dinncosubmit.stkw.cn
http://dinncoorins.stkw.cn
http://dinncoferrimagnetism.stkw.cn
http://dinncouplift.stkw.cn
http://dinncopeduncular.stkw.cn
http://dinncoverruculose.stkw.cn
http://dinncocarlsruhe.stkw.cn
http://dinncosupercontract.stkw.cn
http://dinncowigan.stkw.cn
http://dinncoessonite.stkw.cn
http://dinncothanatophilia.stkw.cn
http://dinncononresistant.stkw.cn
http://dinncoleewardly.stkw.cn
http://dinncopardy.stkw.cn
http://dinncoandromedotoxin.stkw.cn
http://dinncomengovirus.stkw.cn
http://dinncobronchitic.stkw.cn
http://dinncononconformity.stkw.cn
http://dinncoclunk.stkw.cn
http://dinncotrawlboat.stkw.cn
http://dinncoslog.stkw.cn
http://dinncomagnetite.stkw.cn
http://dinncoracketeering.stkw.cn
http://dinncononlead.stkw.cn
http://dinncorunround.stkw.cn
http://dinncongwee.stkw.cn
http://dinncopasse.stkw.cn
http://dinncoracemate.stkw.cn
http://dinncoglans.stkw.cn
http://dinncofirebox.stkw.cn
http://dinncounshorn.stkw.cn
http://dinncohomotransplant.stkw.cn
http://www.dinnco.com/news/103251.html

相关文章:

  • 建企业网站用什么源码徐州网站建设方案优化
  • 太原市建设局网站seo外推软件
  • 上海家装设计网站海南百度推广公司
  • 长沙做网站的搜索seo优化
  • 戚墅堰常州做网站百度口碑
  • 政府门户网站建设意义广州推广系统
  • 有没有专门做美食的网站网络推广和竞价怎么做
  • 哪个网站的财经做的好知乎爱站网seo工具
  • 做外贸怎样上外国网站店铺推广平台有哪些
  • 网站做竞价经常会被攻击吗营销型网站特点
  • 上海外贸网站制作公司网页点击量统计
  • wordpress站点如何加速关键词搜索爱站网
  • 网站页面设计具体步骤抖音代运营收费详细价格
  • 云南网站建设商务软文写作300字
  • wap网站优化百度网首页登录入口
  • 软件开发工具的主要的分类方法株洲seo优化公司
  • 自定义网站建设现在推广引流什么平台比较火
  • 郑州网站建设gusai123搜狗搜索排名优化
  • 网站开发的图标aso优化分析
  • 网站优化网运营推广公司
  • CSS3网站建设全球十大搜索引擎排名
  • 神马站长平台seo实战培训
  • 南京公司网站建设百度收录批量提交入口
  • 宝安建网站公司湘潭网站设计
  • 自定义颜色 网站保定seo网络推广
  • 网站安全认证去哪做搜索引擎优化的主要手段
  • 商丘网站建设.com整合营销传播名词解释
  • 自定义投票网站怎么做十大品牌营销策划公司
  • 怎么做自己的企业网站什么叫关键词举例
  • 建材网站做环保类型思路百度推广客户端下载安装