您的位置:首页 > 博客中心 > 数据库 >

Hadoop、Pig、Hive、NOSQL 学习资源收集

时间:2022-03-10 18:06

(一)hadoop 相关安装部署

1、hadoop在windows cygwin下的部署:

2、hadoop 伪分布式安装:

3、hadoop全分布式安装教程:

4、

关于eclipse无法连接报错:

"Map/Reduce location status updater". org/codehaus/jackson/map/JsonMappingException

经过查询,是由于hadoop的eclipse 插件里面缺少了包

按照这篇文章的说明 修改包后 重新运行成功

如果已经安装了官方插件,发现没法连接的,需要先从eclipse中删除这个jar包.然后重启eclipse,(防止缓存)

然后再放入新jar包, 再重启eclipse.

windows下用eclipse连接linux中的hadoop,并执行mr

5、

ssh-keygen -t dsa -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

(二)hive

1、基于hive的日志统计实战:

2、Hive实例:CSDN十大常用密码

3、hive官方教程:

4、Hive 随谈(四)– Hive QL

   # JOIN

5、写好Hive 程序的五个提示

  #排序

6、Hadoop数据仓库工具--hive介绍(百度)

7、hive 分享(淘宝网)

8、hive简介(美丽说)

9、Hive学习笔记(阿里巴巴)

10、Hive - 运用于hadoop的拍字节范围数据仓库(论文)

11、Hive: SQL for Hadoop(An Essential Tool for Hadoop-based Data Warehouses)

12、Programming Hive

13、Hive 随谈(六)– Hive 的扩展特性:

File Format、SerDe、Map/Reduce 脚本(Transform)、UDF、UDAF

14、hive 数据倾斜总结

15、用hive查询json格式的复杂数据

16、同事总结的hive sql 优化

17、通过 thrift 接口实现 python 查询 hive 数据仓库

18、通过 thrift 接口实现 php 查询 hive 数据仓库(以及phpHiveAdmin简介)

19、Hive SQL使用和数据加载的一点总结

20、hive优化之——控制hive任务中的map数和reduce数

21、hive中一些实用的小技巧

22、数据仓库数据模型之:极限存储--历史拉链表

23、Programing Hive读书笔记

(三)pig

1、pig 实战

2、pig官方教程

3、Apache Pig中文教程集合

4、Programming Pig

5、PigFly:hadoop 统一数据分析平台设计(淘宝)

6、用 Apache Pig 处理百万歌曲数据()

7、Pig Latin: A Not-So-Foreign Language for Data Processing(斯坦福大学论文)

8、Lecture 09: Parallel Databases, Big Data, Map/Reduce, Pig-Latin

9、Pig Queries Parsing JSON on Amazons Elastic Map Reduce Using S3 Data

10、pig cookbook:性能调优

11、pig stream 用法:

(四)hadoop原理与编码

1、hadoop使用中的几个小细节

2、hadoop中map-reduce相关过程与概念的理解:更多请浏览目录

3、hadoop 0.18 中文版官方文档

4、IBM developerworks:用 Hadoop 进行分布式并行编程系列, 第 1 ~3 部分

5、分布式计算开源框架Hadoop介绍

6、Hadoop基本流程与应用开发( Java )

7、hadoop 源码分析

8、hadoop数据流、作业提交分析

9、Hadoop管理员的十个最佳实践

10、hadoop、hive源码分析及使用分享

11、Hadoop计算能力调度器应用和配置(区别于默认的FIFO队列调度)

12、浅析Hadoop 中的调度策略

Hadoop-0.20.2公平调度器算法解析

Hadoop计算能力调度器算法解析

Hadoop资源感知调度器简介

13、hadoop作业调优参数整理及原理

14、比较全的hadoop源码分析

15、如何在Hadoop上编写MapReduce程序

16、Hadoop学习笔记(二):从map到reduce的数据流

17、通过Hadoop的API管理Job

18、揭秘InputFormat:掌控Map Reduce任务执行的利器

19、Hadoop MapReduce开发最佳实践(上篇)

20、Hadoop实例:二度人脉与好友推荐

21、探索大数据分析和 Hadoop

(五)数据仓库

1、数据仓库基础培训

2、数据仓库ods基础学习

3、HBDW-PM-数据仓库基础

(六)Oozie工作流

1、Oozie简介

2、跟着示例学Oozie

3、扩展Oozie

4、oozie相关安装配置与问题解决例子

5、oozie总结

(七)HBase

1、hbase官方指南

2、HBase技术介绍

3、HBase入门篇2-Java操作HBase例子

4、hbase基本概念和hbase shell常用命令用法

5、 HBase简介

6、HBase 官方文档(中文版)

7、HBase性能优化方法总结

8、hbase系统架构及数据结构

9、[翻译] HBase存储架构

10、HBase存储文件格式概述

11、Hbase, Hive and Pig 介绍(肯特大学)

12、python 调用HBase 实例

13、hbase在淘宝的应用和优化小结

14、hbase伪分布式安装指南:

15、HBase上关于CMS、GC碎片、大缓存的一种解决方案:Bucket Cache

   

注:作者来自阿里,据称读性能能提升一个数量级,该patch已被hbase社区接受。

16、HBase 一些 tip

(八)flume

1、Flume日志收集 原理与实践

2、flume搭建调试

(九)sqoop

1、

2、Sqoop示例

3、使用Sqoop在HDFS和RDBMS之间导数据

4、Sqoop User Guide (v1.4.2)

5、用sqoop进行mysql和hdfs系统间的数据互导

6、Mysql<->sqoop<->HDFS 数据交换实验

(十)ZooKeeper

1、ZooKeeper Administrator‘s Guide

2、ZooKeeper快速搭建

3、ZooKeeper管理员指南——部署与管理ZooKeeper

(十一)NOSQL

1、Redis资料汇总专题

2、MongoDB资料汇总专题

3、NoSQL数据库笔谈

4、redis入门系列

5、Redis经验谈

附:我的百度空间(由于百度的升级门,导致许多博文丢失):

1、

ZZ:

Hadoop、Pig、Hive、NOSQL 学习资源收集,布布扣,bubuko.com

热门排行

今日推荐

热门手游