Spark 机器学习：聚类和分类

博客分类：

机器学习

1、机器学习概述机器学习的定义：（1）在维基百科上对机器学习提出以下几种定义： “机器学习是一门人工智能的科学，该领域的主是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”一种经常引用的英文定义是：A computer program is said to learn from experience with respect to some class of tasks T and performance measure P, if its performance ...

2019-12-24 16:03
浏览 424
评论(0)
分类:编程语言

LibSVM文件转换为csv格式

博客分类：

大数据

转自:https://www.cnblogs.com/massquantity/p/10054496.html Spark MLlib 的官方例子里面提供的数据大部分是 libsvm 格式的。这其实是一种非常蛋疼的文件格式，和常见的二维表格形式相去甚远，下图是里面的一个例子：完整代码 libsvm 文件的基本格式如下： <la

2019-12-24 16:00
浏览 480
评论(0)
分类:开源软件

spark– 如何定义DataFrame的分区？

博客分类：

大数据

在Spark> = 1.6中，可以使用按列分区查询和缓存。参见：SPARK-11410和SPARK-4849使用重分区方法： val df = sc.parallelize(Seq(("A",1),("B",2),("A",3),("C",1

2019-12-09 10:17
浏览 293
评论(0)
分类:企业架构

TCP端口状态说明ESTABLISHED、TIME_WAIT

博客分类：

linux

TCP端口状态说明ESTABLISHED、TIME_WAIT TCP状态转移要点 TCP协议规定，对于已经建立的连接，网络双方要进行四次握手才能成功断开连接，如果缺少了其中某个步骤，将会使连接处于假死状态，连接本身占用的资源不会被释放。网络� ...

2019-12-03 08:15
浏览 364
评论(0)
分类:操作系统

linux按行切割文件

博客分类：

linux

本文链接：https://blog.csdn.net/daiyudong2020/article/details/73302609 split --help Usage: split [OPTION]... [INPUT [PREFIX]] Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; default size is 1000 lines, and default PREFIX is 'x'. With no INPUT, or when IN ...

2019-11-01 09:30
浏览 610
评论(0)
分类:操作系统

HBase导出CSV格式数据的方法

博客分类：

大数据

转自:https://www.cppentry.com/bencandy.php?fid=118&id=187016 本文的测试环境为hbase-0.96.0 + yarn(hadoop-2.0.3-alpha) + pig-0.12.0。在测试前，先创建了一张名为test的hbase表，它内容非常简单，就只有一行数据： HBase export工具导出的数据的格式是sequence file。比如，在执行完命令“bin/hbase org.apache.hadoop.hbase.mapreduce.Export test test-output-001”后，hba ...

2019-10-25 08:19
浏览 1033
评论(0)
分类:互联网

linux查看文件大小

博客分类：

技术内容

01 查看文件和文件夹的大小　　一般使用df和du命令查看。　　其中df可以查看一级文件夹大小，使用比例，档案系统及挂载点。　　du 可以根据参数查看文件及文件夹的大小 [app@bae6ff234e2dca8 ~]$ df -h Filesystem Size Used Avail Use% Mounted on /dev/vda1 20G 5.3G 14G 29% / tmpfs 3.9G 0 3.9G 0

2019-08-20 18:11
浏览 387
评论(0)
分类:操作系统

Maven打包Scala项目

博客分类：

项目构建

本文仅讨论使用Maven+Scala项目打包可执行Jar从而使用spark-submit提交执行打包的几种形式编号是否可执行是否包含依赖场景 1 ✖ ✖ 常用于制作类库或工具等，我们使用Maven引入的第三方Jar大都是此类 2 ✔ ✖ 用于制作可执行程序，可通过Java命令启动，但是程序本身不包含依赖，多以lib目录等存放依赖，同时在主程序中标记引用关系，一般都是相对位置。主程序一般体积很小，在不改变依赖引用的情况下修改主程序可用更小的网络资源完成 ...

2019-08-13 10:32
浏览 829
评论(0)
分类:编程语言

Labeled point--带有标志的数据，用于监督学习算法

博客分类：

机器学习

labeled point 是一个局部向量，要么是密集型的要么是稀疏型的，用一个label/response进行关联。在MLlib里，labeled points 被用来监督学习算法。我们使用一个double数来存储一个label，因此我们能够使用labeled points进行回归和分类。在二进制分类里，一个label可以是 0（负数）或者 1（正数）。在多级分类中，labels可以是class的索引，从0开始：0,1,2,...... import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib. ...

2019-06-24 18:19
浏览 820
评论(0)
分类:编程语言

决策树详解（转）

博客分类：

机器学习

定义决策树是一种常见的机器学习算法，它的思想十分朴素，类似于我们平时利用选择做决策的过程。例如有人给我们介绍新的对象的时候，我们就要一个个特点去判断，于是这种判断的过程就可以画成一棵树，例如根据特点依次判断：如上，决策的形式以树的形式进行示意和编码，就形成了决策树。结构显然，决策树在逻辑上以树的形式存在，包含根节点、内部结点和叶节点。 - 根节点：包含数据集中的所有数据的集合 - 内部节点：每个内部节点为一个判断条件，并且包含数据集中满足从根节点到该节点所有条件的数据的集合。根据内部结点的判断条件测试结果，内部节点对应的数据的集合别分到两个 ...

2019-06-20 08:25
浏览 613
评论(0)
分类:编程语言

最小二乘法

博客分类：

机器学习

https://endlesslethe.com/easy-to-learn-ols.html 有更多总结分享，最新更新也只会发布在我的个人网站上。排版也可能会更好看一点=v=前言最小二乘法在统计学的地位不必多言。本文的目的是全面地讲解最小二乘法，打好机器学习的基础� ...

2019-06-06 08:12
浏览 450
评论(0)
分类:编程语言

梯度下降（Gradient Descent）小结

博客分类：

机器学习

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 1. 梯度　　　　在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0)，如果是3个参数的向量梯度，就是(∂f/∂x, ∂f/ ...

2019-06-05 18:12
浏览 255
评论(0)
分类:编程语言

Python之NumPy（axis=0 与axis=1）区分

博客分类：

python

Python之NumPy（axis=0 与axis=1）区分转自：http://blog.csdn.net/wangying19911991/article/details/73928172 https://www.zhihu.com/question/58993137 python中的axis究竟是如何定义的呢？他们究竟代表是DataFrame的行还是列？考虑以下代码： >>>df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], \ columns ...

2019-05-31 11:11
浏览 519
评论(0)
分类:编程语言

np.newaxis

博客分类：

python

numpy np.newaxis 的实用 >> type(np.newaxis) NoneType >> np.newaxis == None True np.newaxis 在使用和功能上等价于 None，其实就是 None 的一个别名。 1. np.newaxis 的实用 >> x = np.arange(3) >> x array([0, 1, 2]) >> x.shape (3,) >> x[:, np.newaxis] array([[0], [1], ...

2019-05-29 18:01
浏览 338
评论(0)
分类:编程语言

Sklearn-preprocessing.PolynomialFeatures

博客分类：

机器学习

在建模过程中多次用到过sklearn.preprocessing.PolynomialFeatures，可以理解为专门生成多项式特征，并且多项式包含的是相互影响的特征集，比如：一个输入样本是２维的。形式如[a,b] ,则二阶多项式的特征集如下[1,a,b,a^2,ab,b^2]。官网文档：http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html 参数： degree : integer，多项式阶数，默认为2； interaction_only : ...

2019-05-29 17:59
浏览 527
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Spark 机器学习：聚类和分类

LibSVM文件转换为csv格式

spark– 如何定义DataFrame的分区？

TCP端口状态说明ESTABLISHED、TIME_WAIT

linux按行切割文件

HBase导出CSV格式数据的方法

linux查看文件大小

Maven打包Scala项目

Labeled point--带有标志的数据，用于监督学习算法

决策树详解（转）

最小二乘法

梯度下降（Gradient Descent）小结

Python之NumPy（axis=0 与axis=1）区分

np.newaxis

Sklearn-preprocessing.PolynomialFeatures

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>