- 浏览: 866981 次
- 性别:
- 来自: 上海
最新评论
-
zzuliuli:
很实用,一直关注
mysql的执行计划 -
rxin2009:
你好,最近在解决redis数据同步的问题,找到了tedis,但 ...
taobao/tedis的redis集群 -
zhangping2056:
楼主接下来要考虑页面静态化与细节上面的东西了
Nginx与Redis解决高并发问题 -
XieFuQ:
Tomcat的重启shell脚本 -
jovinlee:
jovinlee 写道 jov ...
Tomcat的重启shell脚本
文章列表
Spark 机器学习:聚类和分类
- 博客分类:
- 机器学习
1、机器学习概述
机器学习的定义: (1)在维基百科上对机器学习提出以下几种定义:
“机器学习是一门人工智能的科学,该领域的主是如何在经验学习中改善具体算法的性能”。
“机器学习是对能通过经验自动改进的计算机算法的研究”。
“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”一种经常引用的英文定义是:A computer program is said to learn from experience with respect to some class of tasks T and performance measure P, if its performance ...
LibSVM文件转换为csv格式
- 博客分类:
- 大数据
转自:https://www.cnblogs.com/massquantity/p/10054496.html
Spark MLlib 的官方例子里面提供的数据大部分是 libsvm 格式的。这其实是一种非常蛋疼的文件格式,和常见的二维表格形式相去甚远,下图是里面的一个例子:
完整代码
libsvm 文件的基本格式如下:
<la
spark– 如何定义DataFrame的分区?
- 博客分类:
- 大数据
在Spark> = 1.6中,可以使用按列分区查询和缓存。参见:SPARK-11410和SPARK-4849使用重分区方法:
val df = sc.parallelize(Seq(("A",1),("B",2),("A",3),("C",1
TCP端口状态说明ESTABLISHED、TIME_WAIT
TCP状态转移要点
TCP协议规定,对于已经建立的连接,网络双方要进行四次握手才能成功断开连接,如果缺少了其中某个步骤,将会使连接处于假死状态,连接本身占用的资源不 会被释放。网络 ...
linux按行切割文件
- 博客分类:
- linux
本文链接:https://blog.csdn.net/daiyudong2020/article/details/73302609
split --help
Usage: split [OPTION]... [INPUT [PREFIX]]
Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; default
size is 1000 lines, and default PREFIX is 'x'. With no INPUT, or when IN ...
转自:https://www.cppentry.com/bencandy.php?fid=118&id=187016
本文的测试环境为hbase-0.96.0 + yarn(hadoop-2.0.3-alpha) + pig-0.12.0。在测试前,先创建了一张名为test的hbase表,它内容非常简单,就只有一行数据:
HBase export工具导出的数据的格式是sequence file。比如,在执行完命令“bin/hbase org.apache.hadoop.hbase.mapreduce.Export test test-output-001”后,hba ...
linux查看文件大小
- 博客分类:
- 技术内容
01 查看文件和文件夹的大小
一般使用df和du命令查看。
其中df可以查看一级文件夹大小,使用比例,档案系统及挂载点。
du 可以根据参数查看文件及文件夹的大小
[app@bae6ff234e2dca8 ~]$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/vda1 20G 5.3G 14G 29% /
tmpfs 3.9G 0 3.9G 0
Maven打包Scala项目
- 博客分类:
- 项目构建
本文仅讨论使用Maven+Scala项目打包可执行Jar从而使用spark-submit提交执行
打包的几种形式
编号
是否可执行
是否包含依赖
场景
1
✖
✖
常用于制作类库或工具等,我们使用Maven引入的第三方Jar大都是此类
2
✔
✖
用于制作可执行程序,可通过Java命令启动,但是程序本身不包含依赖,多以lib目录等存放依赖,同时在主程序中标记引用关系,一般都是相对位置。主程序一般体积很小,在不改变依赖引用的情况下修改主程序可用更小的网络资源完成 ...
labeled point 是一个局部向量,要么是密集型的要么是稀疏型的,用一个label/response进行关联。在MLlib里,labeled points 被用来监督学习算法。我们使用一个double数来存储一个label,因此我们能够使用labeled points进行回归和分类。在二进制分类里,一个label可以是 0(负数)或者 1(正数)。在多级分类中,labels可以是class的索引,从0开始:0,1,2,......
import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib. ...
定义
决策树是一种常见的机器学习算法,它的思想十分朴素,类似于我们平时利用选择做决策的过程。
例如有人给我们介绍新的对象的时候,我们就要一个个特点去判断,于是这种判断的过程就可以画成一棵树,例如根据特点依次判断:
如上,决策的形式以树的形式进行示意和编码,就形成了决策树。
结构
显然,决策树在逻辑上以树的形式存在,包含根节点、内部结点和叶节点。
- 根节点:包含数据集中的所有数据的集合
- 内部节点:每个内部节点为一个判断条件,并且包含数据集中满足从根节点到该节点所有条件的数据的集合。根据内部结点的判断条件测试结果,内部节点对应的数据的集合别分到两个 ...
https://endlesslethe.com/easy-to-learn-ols.html 有更多总结分享,最新更新也只会发布在我的个人网站上。排版也可能会更好看一点=v=前言最小二乘法在统计学的地位不必多言。本文的目的是全面地讲解最小二乘法,打好机器学习的基础 ...
梯度下降(Gradient Descent)小结
- 博客分类:
- 机器学习
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。
1. 梯度
在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0),如果是3个参数的向量梯度,就是(∂f/∂x, ∂f/ ...
Python之NumPy(axis=0 与axis=1)区分
转自:http://blog.csdn.net/wangying19911991/article/details/73928172
https://www.zhihu.com/question/58993137
python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码:
>>>df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], \
columns ...
np.newaxis
- 博客分类:
- python
numpy np.newaxis 的实用
>> type(np.newaxis)
NoneType
>> np.newaxis == None
True
np.newaxis 在使用和功能上等价于 None,其实就是 None 的一个别名。
1. np.newaxis 的实用
>> x = np.arange(3)
>> x
array([0, 1, 2])
>> x.shape
(3,)
>> x[:, np.newaxis]
array([[0],
[1], ...
在建模过程中多次用到过sklearn.preprocessing.PolynomialFeatures,可以理解为专门生成多项式特征,并且多项式包含的是相互影响的特征集,比如:一个输入样本是2维的。形式如[a,b] ,则二阶多项式的特征集如下[1,a,b,a^2,ab,b^2]。
官网文档:http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html
参数:
degree : integer,多项式阶数,默认为2;
interaction_only : ...