kavy

浏览: 866803 次
性别:
来自: 上海

最近访客更多访客>>

15286802013

一往无前bhz

林祥纤

a13143457381

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

基于Spark的机器学习实践 (六) - 基础统计模块

博客分类：

机器学习

1 基础统计模块及常用统计学知识介绍

◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分

◆ Basic Statistics主要包括Correlation 与Hypothesis testing等

◆ 其大多被封装在orq.apache spark.mllib.stat._ 中

1.1 基础统计学知识

1.1.1 常用的统计学知识

◆ 描述性统计
平均数,方差,众数,中位数...

◆ 相关性度量
spark 提供了皮尔逊和斯皮尔曼相关系数,反映变量间相关关系密切程度

◆ 假设检验
根据一定假设条件，由样本推断总体的一种统计学方法,spark提供了皮尔森卡方检测

2 实战统计汇总

◆ 实战的数据来源是北京市历年降水量数据

◆ 学习使用spark对数据进描述性统计

◆ 在进行机器学习模型的训练前,可以了解数据集的总体情况

2.1 coding实战

保存降水量文件
字符串值
实际内容只有一行,读取到数组的是一个超长字符串,需要进行分割.
所需依赖

导入
val data = txt.flatMap(_.split(",")).map(value => linalg.Vectors.dense(value.toDouble))
data.take(10)
统计方法
最大值
平均值

3 学习相关系数

3.1 相关性度量

◆ 是一种研究变量之间线性相关程度的量

◆ 主要学习皮尔逊相关系数:

几组(x, y)的点集，以及各个点集中x和y之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向（第一排），而不是相关性的斜率（中间），也不是各种非线性关系（第三排）。请注意：中间的图中斜率为0，但相关系数是没有意义的，因为此时变量Y是0

3.2 实战相关系数

我们对北京市历年降水量进行相关性统计,看看年份与降水量之间的相关性有多大

过滤

相关系数值

4 学习假设检验

4.1 假设检验

◆ 根据一定假设条件，由样本推断总体的一种统计学方法。基本思路是先提出假设(虚无假设),使用统计学方法进行计算,根据计算结果判断是否拒绝假设

◆ 假设检验的统计方法有很多,如卡方检验，T检验等

◆ spark实现的是皮尔森卡方检验,它可以实现适配度检测和独立性检测

4.2 皮尔森卡方检验

最常用的卡方检验,可以分为适配度检验和独立性检验

◆ 适配度检验:验证观察值的次数分配与理论值是否相等

◆ 独立性检验:两个变量抽样到的观察值是否相互独立

4.3 实战 : 判断性别与左撇子是否存在关系

导入数据
计算

否定了假设检验,所以性别与左撇子是有关的!

Spark机器学习实践系列

作者：Java爱好者哦
链接：https://www.jianshu.com/p/41b58f16582a

分享到：

使用redis管道(pipeline)实现批量查询,批 ... | 基于Spark的TF-IDF算法的中文文本相似度实 ...

2020-03-18 16:21
浏览 284
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

基于Spark的机器学习实践 (六) - 基础统计模块

1 基础统计模块及常用统计学知识介绍

1.1 基础统计学知识

1.1.1 常用的统计学知识

2 实战统计汇总

2.1 coding实战

3 学习相关系数

3.1 相关性度量

3.2 实战相关系数

4 学习假设检验

4.1 假设检验

4.2 皮尔森卡方检验

4.3 实战 : 判断性别与左撇子是否存在关系

Spark机器学习实践系列

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

基于Spark的机器学习实践 (六) - 基础统计模块

1 基础统计模块及常用统计学知识介绍

1.1 基础统计学知识

1.1.1 常用的统计学知识

2 实战统计汇总

2.1 coding实战

3 学习相关系数

3.1 相关性度量

3.2 实战相关系数

4 学习假设检验

4.1 假设检验

4.2 皮尔森卡方检验

4.3 实战 : 判断性别与左撇子是否存在关系

Spark机器学习实践系列

评论

发表评论

相关推荐

基于Spark的TF-IDF算法的中文文本相似度实现

Spark排错与优化

Spark快速获得CrossValidator的最佳模型参数

Spark SQL数据类型

Spark 机器学习：聚类和分类

csv转dataframe和libsvm

PCA算法理解及代码实现

异常点检测算法isolation forest的分布式实现

机器学习-聚类(clustering)算法：K-means算法

spark结合phoenix、h2o机器学习

Spark2.0机器学习系列之1：基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优

habse与spark与h2o结合

H2O在线手册

h2o加载mojo

【Spark】用隐式偏好进行训练（推荐系统）

PredictionIO 简介

使用Spark MLlib给豆瓣用户推荐电影

ml_sample

最小二乘法以及最小二乘法和梯度下降法的区别

如何理解最小二乘法

最近访客更多访客>>