Labeled point--带有标志的数据，用于监督学习算法 -

kavy

浏览: 868351 次
性别:
来自: 上海

最近访客更多访客>>

15286802013

一往无前bhz

林祥纤

a13143457381

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Labeled point--带有标志的数据，用于监督学习算法

博客分类：

机器学习

labeled point 是一个局部向量，要么是密集型的要么是稀疏型的，用一个label/response进行关联。在MLlib里，labeled points 被用来监督学习算法。我们使用一个double数来存储一个label，因此我们能够使用labeled points进行回归和分类。在二进制分类里，一个label可以是 0（负数）或者 1（正数）。在多级分类中，labels可以是class的索引，从0开始：0,1,2,......

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
// Create a labeled point with a positive label and a dense feature vector.
// 使用一个正的label和具有密集特性的向量来创建一个labeled point
val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))
// Create a labeled point with a negative label and a sparse feature vector.
// 用一个负的label和一个稀疏型向量来定义一个labeled point。
val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)))

在实际应用中使用稀疏型训练数据非常常见。MLlib支持读取以LIBSVM格式存储的训练样例，默认的格式是使用 LIBSVM 和 LIBLINEAR 。它是一种文本格式，使用下面的格式存储，每行表示一个labeled稀疏型向量：

import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.rdd.RDD
val examples: RDD[LabeledPoint] = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt")

作者：蠟筆小噺没有烦恼
链接：https://www.jianshu.com/p/94c0a686f565

分享到：

Maven打包Scala项目 | 决策树详解（转）

2019-06-24 18:19
浏览 824
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

2019-ICLR-DEEP GENERATIVE MODELS FOR GENERATING LABELED GRAPHS-R: Published as a workshop paper at ICLR 2019DEEP GENERATIVE MODELS FOR GENERATING

Labeled-LDA-Python:用Python实现L-LDA模型（标签潜在Dirichlet分配模型）: 用Python实现L-LDA模型... 带有标签的LDA可以直接学习主题（标签）对应关系。吉布斯采样：标记的LDA的图形模型：标记LDA的生成过程：吉布斯采样方程式：用法新的llda模型训练？is_convergence 更新推理将模型保存到

Python机器学习项目开发实战_监督学习_编程案例解析实例详解课程教程.pdf: 监督学习是指在有标记的样本（labeled samples）上建立机器学习的模型。例如，如果用尺寸、位置等不同参数建立一套模型来评估一栋房子的价格，那么首先需要创建一个数据库，然后为参数打上标记。我们需要告诉算法，...

grunt-labeled-merge: grunt-labeled-merge 合并文件夹而不覆盖文件。入门这个插件需要 Grunt ~0.4.5 如果您以前没有使用过，请务必查看指南，因为它解释了如何创建以及安装和使用 Grunt 插件。熟悉该过程后，您可以使用以下命令...

自然语言处理-CCF大数据与计算智能大赛-面向数据安全治理的数据内容智能发现与分级分类Python源码+文档说明+数据集(几万): 本项目用于识别样本中的敏感数据，利用远程监督技术基于小样本构建文档分类分级文本库，并与BERT模型相结合，提取文本语义特征，构建具有较强泛化能力的文档分级分类模型，判断数据所属的类别以及级别。数据集 ...

LFW（Labeled Faces in the Wild）人像图像数据集.zip: 该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字，图片中的1680人在数据集中有两个或更多不同的照片。

MixMatch-pytorch:“ MixMatch-半监督学习的整体方法”的代码: 通过CIFAR-10数据集的250个标记数据训练模型： python train.py --gpu <gpu> --n-labeled 250 --out cifar10@250 通过CIFAR-10数据集的4000个标记数据训练模型： python train.py --gpu <gpu> --n-labeled 4000 --...

CamVid数据集，语义分割FCN训练数据集: CamVid全称：The Cambridge-driving Labeled Video Database，该数据集由剑桥大学工程系于 2008 年发布，相关论文有《Segmentation and Recognition Using Structure from Motion Point Clouds》，是第一个具有目标...

Tagged molecule induced nanoparticle aggregation:Raman reporter-labeled immuno-Au aggregate as immuno-sensor: A novel structure with high surface enhanced Raman scattering (SERS) activity and bio-specificity as a SERS-based immuno-sensor (named as Raman reporter-labeled immuno-Au aggregate) is demonstrated ...

Self-labeled-techniques-for-semi-supervised-learning: 用于半监督学习的自标记技术 2017年在罗马的Sapienza大学进行的一次神经网络项目课程。项目报告：实际部分：创建的算法：和

半监督学习中的协同训练风范*: 在传统的监督学习中，学习器通过对大量有标记的（labeled）训练例进行学习，从而建立模型用于预测未见示例的标记。

Camvid数据集用于语义分割的12类: 数据集包括 700 多张精准标注的图片用于强监督学习，可分为训练集、验证集、测试集。同时，在 CamVid 数据集中通常使用 11 种常用的类别来进行分割精度的评估，分别为：道路（Road）、交通标志（Symbol）、汽车...

nyu-depth-v2_labeled.mat-云盘提取.txt: MIT fast-depth论文所用的数据集nyu-depth-v2_labled.mat。文件2.77G，由于上传限制可自行云盘提取。友情提示：如果部署到TX1或TX2上，还请考虑磁盘空间。

labeled LDA: 有监督学习版本的LDA，文本主题模型，jibes labeled lda model

python数据挖掘机器学习实战基于 PACS RAW Labeled Dataset 的聚类任务（完整项目可直接提交）.zip: 基于Molecular Biology DataSet完成分类任务，kNN、决策树、多层感知器、朴素贝叶斯、SVM、随机森林、bagging方法任选或组合，且不限于上述方法和策略，允许有预处理步骤。次实验计算了各个模型在UCI soybean数据集...

目标检测+Trash-ICRA19 Dataset 海洋检测+1144张数据集(图片和标签对应）+3个类别检测: 1.水下目标数据集，方便入门学习。 2.Trash_ICRA19 Dataset是一个开放的目标检测数据集，用于海洋水下图像中的目标检测。数据集包含plastic、bio和rov三个类别，以PASCAL VOC数据集的格式进行标注。 3.数据库的亮点...

基于半监督学习的恶意URL检测方法: 在传统半监督学习协同训练(co-training)的基础上进行了算法改进, 利用专家知识与Doc2Vec两种方法预处理的数据训练两个分类器, 筛选两个分类器预测结果相同且置信度高的数据打上伪标签(pseudo-labeled)后用于分类器...

Labeled Faces in the Wild 面部照片数据集.7z: Labeled Faces in the Wild Dataset 是一个面部图像数据集，专为研究无约束人脸识别开发，该数据集包含从网络收集的 13,000 多张面部图像，每张图片标注有人物名称，共有 1680 人，这些图片均由 Viola – Jones 面部...

人工智能与机器学习简介.pptx: Supervised Learning (监督学习) Have right answers or labeled (数据被进行标记) Feature or attribute(数据维度dimension高，一般指feature数量多) Outcome 人工智能与机器学习简介全文共28页，当前为第12页。...

少标签数据学习（Learning with Few Labeled Data）: 人类的视觉系统证明，用极少的样本就可以学习新的类别;人类不需要一百万个样本就能学会区分野外的有毒蘑菇和可食用蘑菇。可以说，这种能力来自于看到了数百万个其他类别，并将学习到的表现形式转化为新的类别。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Labeled point--带有标志的数据，用于监督学习算法

评论

发表评论

相关推荐

基于Spark的机器学习实践 (六) - 基础统计模块

基于Spark的TF-IDF算法的中文文本相似度实现

Spark排错与优化

Spark快速获得CrossValidator的最佳模型参数

Spark SQL数据类型

Spark 机器学习：聚类和分类

csv转dataframe和libsvm

PCA算法理解及代码实现

异常点检测算法isolation forest的分布式实现

机器学习-聚类(clustering)算法：K-means算法

spark结合phoenix、h2o机器学习

Spark2.0机器学习系列之1：基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优

habse与spark与h2o结合

H2O在线手册

h2o加载mojo

【Spark】用隐式偏好进行训练（推荐系统）

PredictionIO 简介

使用Spark MLlib给豆瓣用户推荐电影

ml_sample

最小二乘法以及最小二乘法和梯度下降法的区别

最近访客更多访客>>