1 基础统计模块及常用统计学知识介绍
◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分
◆ Basic Statistics主要包括Correlation 与Hypothesis testing等
◆ 其大多被封装在orq.apache spark.mllib.stat._ 中
1.1 基础统计学知识
1.1.1 常用的统计学知识
◆ 描述性统计
平均数,方差,众数,中位数...
◆ 相关性度量
spark 提供了皮尔逊和斯皮尔曼相关系数,反映变量间相关关系密切程度
◆ 假设检验
根据一定假设条件,由样本推断总体的一种统计学方法,spark提供了皮尔森卡方检测
2 实战统计汇总
◆ 实战的数据来源是北京市历年降水量数据
◆ 学习使用spark对数据进描述性统计
◆ 在进行机器学习模型的训练前,可以了解数据集的总体情况
2.1 coding实战
-
保存降水量文件
-
字符串值
-
实际内容只有一行,读取到数组的是一个超长字符串,需要进行分割.
-
导入
-
val data = txt.flatMap(_.split(",")).map(value => linalg.Vectors.dense(value.toDouble))
-
data.take(10)
-
统计方法
-
最大值
-
平均值
3 学习相关系数
3.1 相关性度量
◆ 是一种研究变量之间线性相关程度的量
◆ 主要学习皮尔逊相关系数:
几组(x, y)的点集,以及各个点集中x和y之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量Y是0
3.2 实战相关系数
我们对北京市历年降水量进行相关性统计,看看年份与降水量之间的相关性有多大
-
过滤
-
相关系数值
4 学习假设检验
4.1 假设检验
◆ 根据一定假设条件,由样本推断总体的一种统计学方法。基本思路是先提出假设(虚无假设),使用统计学方法进行计算,根据计算结果判断是否拒绝
假设
◆ 假设检验的统计方法有很多,如卡方检验,T检验等
◆ spark实现的是皮尔森卡方检验,它可以实现适配度检测和独立性检测
4.2 皮尔森卡方检验
最常用的卡方检验,可以分为适配度检验和独立性检验
◆ 适配度检验:验证观察值的次数分配与理论值是否相等
◆ 独立性检验:两个变量抽样到的观察值是否相互独立
4.3 实战 : 判断性别与左撇子是否存在关系
-
导入数据
-
计算
否定了假设检验,所以性别与左撇子是有关的!
Spark机器学习实践系列
作者:Java爱好者哦
链接:https://www.jianshu.com/p/41b58f16582a
相关推荐
大数据-基于Spark的机器学习-智能客户系统项目实战,欢迎下载
基于Spark的机器学习-智能客户系统项目实战
Spark安装包:spark-3.1.3-bin-without-hadoop.tgz
在Ubuntu里安装spark,spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模...
Spark机器学习模块源码解读 Spark机器学习模块源码解读
Apache Spark版本3.1.3。Linux安装包。spark-3.1.3-bin-hadoop3.2.tgz
本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载,本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载
spark机器学习K-Means算法解说,配套详细的算法实战讲解
spark-3.2.0-bin-hadoop3.2.tgz
pyspark本地的环境配置包,spark-2.3.4-bin-hadoop2.7.tgz:spark-2.3.4-bin-hadoop2.7.tgz
1.Spark及其生态圈简介.pdf ...8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf 8.SparkMLlib(下)--SparkMLlib实战.pdf 9.SparkGraphX介绍及实例.pdf 10.分布式内存文件系统Tachyon介绍及安装部署.pdf
spark-3.0.0-bin-hadoop3.2下载安装包
spark-3.1.2.tgz版本 & spark-3.1.2-bin-hadoop2.7.tgz版本
内容概要:由于cdh6.3.2的spark版本为2.4.0,并且spark-sql被阉割,现基于cdh6.3.2,scala2.12.0,java1.8,maven3.6.3,,对spark-3.2.2源码进行编译 应用:该资源可用于cdh6.3.2集群配置spark客户端,用于spark-sql
spark-2.4.0-bin-hadoop2.7
linux的spark新版本,匹配hadoop2.7版本,spark-3.2.1-bin-hadoop2.7.tgz
spark-3.0.0-bin-hadoop2.7.tgz 官网下载不了的,需要资源的,可以到这里下载哦