`
kavy
  • 浏览: 866981 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
1、机器学习概述 机器学习的定义: (1)在维基百科上对机器学习提出以下几种定义: “机器学习是一门人工智能的科学,该领域的主是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”一种经常引用的英文定义是:A computer program is said to learn from experience with respect to some class of tasks T and performance measure P, if its performance ...
转自:https://www.cnblogs.com/massquantity/p/10054496.html   Spark MLlib 的官方例子里面提供的数据大部分是 libsvm 格式的。这其实是一种非常蛋疼的文件格式,和常见的二维表格形式相去甚远,下图是里面的一个例子:   完整代码   libsvm 文件的基本格式如下: <la
在Spark> = 1.6中,可以使用按列分区查询和缓存。参见:SPARK-11410和SPARK-4849使用重分区方法:   val df = sc.parallelize(Seq(("A",1),("B",2),("A",3),("C",1
TCP端口状态说明ESTABLISHED、TIME_WAIT TCP状态转移要点 TCP协议规定,对于已经建立的连接,网络双方要进行四次握手才能成功断开连接,如果缺少了其中某个步骤,将会使连接处于假死状态,连接本身占用的资源不 会被释放。网络 ...

linux按行切割文件

本文链接:https://blog.csdn.net/daiyudong2020/article/details/73302609     split --help       Usage: split [OPTION]... [INPUT [PREFIX]] Output fixed-size pieces of INPUT to PREFIXaa, PREFIXab, ...; default size is 1000 lines, and default PREFIX is 'x'.  With no INPUT, or when IN ...
  转自:https://www.cppentry.com/bencandy.php?fid=118&id=187016   本文的测试环境为hbase-0.96.0 + yarn(hadoop-2.0.3-alpha) + pig-0.12.0。在测试前,先创建了一张名为test的hbase表,它内容非常简单,就只有一行数据: HBase export工具导出的数据的格式是sequence file。比如,在执行完命令“bin/hbase org.apache.hadoop.hbase.mapreduce.Export test test-output-001”后,hba ...
01 查看文件和文件夹的大小   一般使用df和du命令查看。   其中df可以查看一级文件夹大小,使用比例,档案系统及挂载点。   du 可以根据参数查看文件及文件夹的大小 [app@bae6ff234e2dca8 ~]$ df -h Filesystem Size Used Avail Use% Mounted on /dev/vda1 20G 5.3G 14G 29% / tmpfs 3.9G 0 3.9G 0
本文仅讨论使用Maven+Scala项目打包可执行Jar从而使用spark-submit提交执行 打包的几种形式 编号 是否可执行 是否包含依赖 场景 1      ✖                     ✖                     常用于制作类库或工具等,我们使用Maven引入的第三方Jar大都是此类 2 ✔ ✖ 用于制作可执行程序,可通过Java命令启动,但是程序本身不包含依赖,多以lib目录等存放依赖,同时在主程序中标记引用关系,一般都是相对位置。主程序一般体积很小,在不改变依赖引用的情况下修改主程序可用更小的网络资源完成 ...
labeled point 是一个局部向量,要么是密集型的要么是稀疏型的,用一个label/response进行关联。在MLlib里,labeled points 被用来监督学习算法。我们使用一个double数来存储一个label,因此我们能够使用labeled points进行回归和分类。在二进制分类里,一个label可以是 0(负数)或者 1(正数)。在多级分类中,labels可以是class的索引,从0开始:0,1,2,...... import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib. ...
定义 决策树是一种常见的机器学习算法,它的思想十分朴素,类似于我们平时利用选择做决策的过程。   例如有人给我们介绍新的对象的时候,我们就要一个个特点去判断,于是这种判断的过程就可以画成一棵树,例如根据特点依次判断:      如上,决策的形式以树的形式进行示意和编码,就形成了决策树。   结构 显然,决策树在逻辑上以树的形式存在,包含根节点、内部结点和叶节点。  - 根节点:包含数据集中的所有数据的集合  - 内部节点:每个内部节点为一个判断条件,并且包含数据集中满足从根节点到该节点所有条件的数据的集合。根据内部结点的判断条件测试结果,内部节点对应的数据的集合别分到两个 ...

最小二乘法

https://endlesslethe.com/easy-to-learn-ols.html 有更多总结分享,最新更新也只会发布在我的个人网站上。排版也可能会更好看一点=v=前言最小二乘法在统计学的地位不必多言。本文的目的是全面地讲解最小二乘法,打好机器学习的基础 ...
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 1. 梯度     在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称grad f(x,y)或者▽f(x,y)。对于在点(x0,y0)的具体梯度向量就是(∂f/∂x0, ∂f/∂y0)T.或者▽f(x0,y0),如果是3个参数的向量梯度,就是(∂f/∂x, ∂f/ ...
Python之NumPy(axis=0 与axis=1)区分   转自:http://blog.csdn.net/wangying19911991/article/details/73928172            https://www.zhihu.com/question/58993137   python中的axis究竟是如何定义的呢?他们究竟代表是DataFrame的行还是列?考虑以下代码: >>>df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], \ columns ...

np.newaxis

numpy np.newaxis 的实用 >> type(np.newaxis) NoneType >> np.newaxis == None True   np.newaxis 在使用和功能上等价于 None,其实就是 None 的一个别名。 1. np.newaxis 的实用 >> x = np.arange(3) >> x array([0, 1, 2]) >> x.shape (3,) >> x[:, np.newaxis] array([[0], [1], ...
在建模过程中多次用到过sklearn.preprocessing.PolynomialFeatures,可以理解为专门生成多项式特征,并且多项式包含的是相互影响的特征集,比如:一个输入样本是2维的。形式如[a,b] ,则二阶多项式的特征集如下[1,a,b,a^2,ab,b^2]。 官网文档:http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html 参数: degree : integer,多项式阶数,默认为2; interaction_only : ...
Global site tag (gtag.js) - Google Analytics