http://baike.baidu.com/link?url=ZsVR3-tONSmftst_0lJnKWu2c_JjePSEY8Egzu-fVky2AFaXwMeFXiVpT-wOE68n4vRd_hqb0EhD3V546ntYfa
[1] Sqoop(发音:skup)是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
1特征编辑
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
对于某些NoSQL数据库它也提供了连接器。Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务来处理每个区块。
2示例编辑
(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
3注意事项编辑
尽管有以上的优点,在使用Sqoop的时候还有一些事情需要注意。首先,对于默认的并行机制要小心。默认情况下的并行意味着Sqoop假设大数据是在分区键范围内均匀分布的。这在当你的源系统是使用一个序列号发生器来生成主键的时候工作得很好。打个比方,当你有一个10个节点的集群,那么工作负载是在这10台服务器上平均分配的。但是,如果你的分割键是基于字母数字的,拥有比如以“A”作为开头的键值的数量会是“M”作为开头键值数量的20倍,那么工作负载就会变成从一台服务器倾斜到另一台服务器上。
如果你最担心是性能,那么可以研究下直接加载。直接加载绕过通常的Java数据库连接导入,使用数据库本身提供的直接载入工具,比如MySQL的mysqldump。但是有特定数据库的限制。比如,你不能使用MySQL或者PostgreSQL的连接器来导入BLOB和CLOB类型。也没有驱动支持从视图的导入。Oracle直接驱动需要特权来读取类似dba_objects和v_$parameter这样的元数据。请查阅你的数据库直连驱动程序局限性的相关文档。
进行增量导入是与效率有关的最受关注的问题,因为Sqoop专门是为大数据集设计的。Sqoop支持增量更新,将新记录添加到最近一次的导出的数据源上,或者指定上次修改的时间戳。
由于Sqoop将数据移入和移出关系型数据库的能力,其对于Hive—Hadoop生态系统里的著名的类SQL数据仓库—有专门的支持不足为奇。命令“create-hive-table”可以用来将数据表定义导入到Hive。
相关推荐
Hadoop技术Sqoop简介共12页.pdf.zip
Sqoop简介与安装.md
2.1 下载并解压 2.2 配置环境变量 2.3 修改配置 2.4 拷贝数据库驱动 2.5 验证 2.1 下载并解压 2.2 配置环境变量 2.3 修改配置 2
Sqoop简介 大数据-sqoop全文共16页,当前为第1页。 Sqoop1 和 Sqoop2 结构图。左图是Sqoop1 架构,右图是Sqoop2 架构 Sqoop架构图 大数据-sqoop全文共16页,当前为第2页。 Sqoop版本区别 Sqoop1与Sqoop2优缺点比较...
Sqoop简介 Sqoop Hadoop生态系统的采集软件 支持RDBMS和HDFS之间高效大容量批量数据传输的工具 当您要将关系数据库中存储的数据导入到HDFS Hadoop引擎时使用。 可以将来自外部系统的数据导入HDFS并以Hive表和HBase...
用问答的形式描述Sqoop的详细用法,Sqoop是hadoop平台的一个ETL工具,支持从关系型数据到HDFS,HIVE等抽取加载
课程简介 从零开始讲解大数据业务及数据采集和迁移需求,以案例驱动的方式讲解基于Sqoop构建高性能的分布式数据迁移和同步平台。 课程亮点 1,知识体系完备,从小白到大神各阶段读者均能学有所获。 2,生动形象,化...
6-1 Phoenix简介 6-2 Phoenix安装 6-3 Phoenix实战:shell命令操作Phoenix 6-4 Phoenix实战:java jdbc操作Phoenix 6-5 通过mybatis操作Phoenix 6-6 通过mybatis操作Phoenix 6-7 Sqoop简介 6-8 Sqoop数据导入实战 6...
学习数据采集工具(ETL)Sqoop并使用多年后,写的一个学习笔记,整理了基本的要点,和操作使用手册,方便初学者快速掌握。
《大数据框架Sqoop+Flume+Oozie+Hue视频教程》Sqoop+Flume+Oozie+Hue整合大数据视频教程 经典之作 值得珍藏的大数据视频教程。
一:简介 Sqoop是一款用于Hadoop(Hive)与关系型数据库(mysql等)间进行数据的传递的ETL工具。 二:安装sqoop 1. 安装sqoop brew install sqoop 2. 配置环境变量 Hadoop, Hive, HBase and ZooKeeper must be ...
大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程 02.MapReduce(共23页).pptx 大数据与云计算教程课件 优质大数据课程 03.Hadoop YARN(共...
大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程 02.MapReduce(共23页).pptx 大数据与云计算教程课件 优质大数据课程 03.Hadoop YARN(共...
大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程 02.MapReduce(共23页).pptx 大数据与云计算教程课件 优质大数据课程 03.Hadoop YARN(共...
简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark Spark Core Spark SQL Spark Streaming 五、Flink ...
Spark (内存计算) Hive Pig Mahout Sqoop (数据库TEL工具) Flume (日志收集) …… …… 大数据平台简介全文共176页,当前为第4页。 HDFS-Hadoop Distributed File System 大数据平台简介全文共176页,当前为...
一、简介 在此页面中,您可以找到侧重于 CCA Spark 和 Hadoop 开发人员认证所需技能的理论摘要。 欲了解更多信息,请访问以下链接: :BACK_arrow: 2. 数据摄取 一世。 使用 Sqoop 将数据从 MySQL 数据库导入 HDFS ...
Cloudera大数据平台介绍 hadoop hive sqoop hdfs 集群简介 相关组件介绍 cdh-5.1
01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12...
01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12...