Hadoop、Pig、Hive、NOSQL 学习资源收集
时间:2022-03-10 18:06
(一)hadoop 相关安装部署
1、hadoop在windows cygwin下的部署:
2、hadoop 伪分布式安装:
3、hadoop全分布式安装教程:
4、
关于eclipse无法连接报错:
"Map/Reduce location status updater". org/codehaus/jackson/map/JsonMappingException
经过查询,是由于hadoop的eclipse 插件里面缺少了包
按照这篇文章的说明 修改包后 重新运行成功
如果已经安装了官方插件,发现没法连接的,需要先从eclipse中删除这个jar包.然后重启eclipse,(防止缓存)
然后再放入新jar包, 再重启eclipse.
windows下用eclipse连接linux中的hadoop,并执行mr
5、
ssh-keygen -t dsa -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
(二)hive
1、基于hive的日志统计实战:
2、Hive实例:CSDN十大常用密码
3、hive官方教程:
4、Hive 随谈(四)– Hive QL
# JOIN
5、写好Hive 程序的五个提示
#排序
6、Hadoop数据仓库工具--hive介绍(百度)
7、hive 分享(淘宝网)
8、hive简介(美丽说)
9、Hive学习笔记(阿里巴巴)
10、Hive - 运用于hadoop的拍字节范围数据仓库(论文)
11、Hive: SQL for Hadoop(An Essential Tool for Hadoop-based Data Warehouses)
12、Programming Hive
13、Hive 随谈(六)– Hive 的扩展特性:
File Format、SerDe、Map/Reduce 脚本(Transform)、UDF、UDAF
14、hive 数据倾斜总结
15、用hive查询json格式的复杂数据
16、同事总结的hive sql 优化
17、通过 thrift 接口实现 python 查询 hive 数据仓库
18、通过 thrift 接口实现 php 查询 hive 数据仓库(以及phpHiveAdmin简介)
19、Hive SQL使用和数据加载的一点总结
20、hive优化之——控制hive任务中的map数和reduce数
21、hive中一些实用的小技巧
22、数据仓库数据模型之:极限存储--历史拉链表
23、Programing Hive读书笔记
(三)pig
1、pig 实战
2、pig官方教程
3、Apache Pig中文教程集合
4、Programming Pig
5、PigFly:hadoop 统一数据分析平台设计(淘宝)
6、用 Apache Pig 处理百万歌曲数据()
7、Pig Latin: A Not-So-Foreign Language for Data Processing(斯坦福大学论文)
8、Lecture 09: Parallel Databases, Big Data, Map/Reduce, Pig-Latin
9、Pig Queries Parsing JSON on Amazons Elastic Map Reduce Using S3 Data
10、pig cookbook:性能调优
11、pig stream 用法:
(四)hadoop原理与编码
1、hadoop使用中的几个小细节
2、hadoop中map-reduce相关过程与概念的理解:更多请浏览目录
3、hadoop 0.18 中文版官方文档
4、IBM developerworks:用 Hadoop 进行分布式并行编程系列, 第 1 ~3 部分
5、分布式计算开源框架Hadoop介绍
6、Hadoop基本流程与应用开发( Java )
7、hadoop 源码分析
8、hadoop数据流、作业提交分析
9、Hadoop管理员的十个最佳实践
10、hadoop、hive源码分析及使用分享
11、Hadoop计算能力调度器应用和配置(区别于默认的FIFO队列调度)
12、浅析Hadoop 中的调度策略
Hadoop-0.20.2公平调度器算法解析
Hadoop计算能力调度器算法解析
Hadoop资源感知调度器简介
13、hadoop作业调优参数整理及原理
14、比较全的hadoop源码分析
15、如何在Hadoop上编写MapReduce程序
16、Hadoop学习笔记(二):从map到reduce的数据流
17、通过Hadoop的API管理Job
18、揭秘InputFormat:掌控Map Reduce任务执行的利器
19、Hadoop MapReduce开发最佳实践(上篇)
20、Hadoop实例:二度人脉与好友推荐
21、探索大数据分析和 Hadoop
(五)数据仓库
1、数据仓库基础培训
2、数据仓库ods基础学习
3、HBDW-PM-数据仓库基础
(六)Oozie工作流
1、Oozie简介
2、跟着示例学Oozie
3、扩展Oozie
4、oozie相关安装配置与问题解决例子
5、oozie总结
(七)HBase
1、hbase官方指南
2、HBase技术介绍
3、HBase入门篇2-Java操作HBase例子
4、hbase基本概念和hbase shell常用命令用法
5、 HBase简介
6、HBase 官方文档(中文版)
7、HBase性能优化方法总结
8、hbase系统架构及数据结构
9、[翻译] HBase存储架构
10、HBase存储文件格式概述
11、Hbase, Hive and Pig 介绍(肯特大学)
12、python 调用HBase 实例
13、hbase在淘宝的应用和优化小结
14、hbase伪分布式安装指南:
15、HBase上关于CMS、GC碎片、大缓存的一种解决方案:Bucket Cache
注:作者来自阿里,据称读性能能提升一个数量级,该patch已被hbase社区接受。
16、HBase 一些 tip
(八)flume
1、Flume日志收集 原理与实践
2、flume搭建调试
(九)sqoop
1、
2、Sqoop示例
3、使用Sqoop在HDFS和RDBMS之间导数据
4、Sqoop User Guide (v1.4.2)
5、用sqoop进行mysql和hdfs系统间的数据互导
6、Mysql<->sqoop<->HDFS 数据交换实验
(十)ZooKeeper
1、ZooKeeper Administrator‘s Guide
2、ZooKeeper快速搭建
3、ZooKeeper管理员指南——部署与管理ZooKeeper
(十一)NOSQL
1、Redis资料汇总专题
2、MongoDB资料汇总专题
3、NoSQL数据库笔谈
4、redis入门系列
5、Redis经验谈
附:我的百度空间(由于百度的升级门,导致许多博文丢失):
1、
ZZ:
Hadoop、Pig、Hive、NOSQL 学习资源收集,布布扣,bubuko.com