博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop入门
阅读量:5174 次
发布时间:2019-06-13

本文共 1859 字,大约阅读时间需要 6 分钟。

Hadoop大数据平台架构与实践

  1. 大数据技术的相关概念
  2. Hadoop的架构和运行机制
  3. 实践:Hadoop的安装和配置
  4. Hadoop的开发

Hadoop是什么?

  开源的, 分布式存储  +  分布式计算平台

Hadoop的组成?

  HDFS:分布式文件系统,存储海量的数据

  MapReduce:并行处理框架,实现任务分解和调度

Hadoop可以用来做什么?

  搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务

Hadoop的优势?

  1. 高扩展
  2. 低成本
  3. 成熟的生态圈 e.g.HIVE、Hbase、zookeper等等 
    1. HIVE:小蜜蜂,代表着一种牵引,利用hive这个工具,你可以不用去编写复杂的Hadoop任务程序,只需要写一个SQL语句, Hive就可以把这个SQL转换成Hadoop任务去执行,降低了使用Hadoop的使用门槛
    2. HBASE:是一个存储结构化数据库的分布式数据库。
      1. 它与传统的关系型数据库的区别是:放弃事物特性,追求更高的扩展。
      2. 它与HDFS的区别是:hbase提供数据的读写和实时访问,实现对表数据的读写功能

Hadoop版本的选择?

  ver1.x稳定  ver2.x 不稳定       差别很大,课程用ver1.2

Hadoop的安装

  1. 准备Linux环境
  2. 安装JDK(hadoop是用java开发的)
  3. 配置hadoop
    1. hadoop-env.sh 配置JAVA_HOME
    2. core-site.xml 配置Common组件的属性
      hadoop.tmp.dir
      //hadoop临时目录用来存放nn临时文件
      /usr/local/hadoop/tmp
      //该目录必须预先手工创建不能删除
      hadoop.name.dir
      /usr/local/hadoop/name
      fs.default.name
      //配置NN节点地址和端口号
      hdfs://hadoop.master:9000
      //注意格式必须是host:port的形式
      View Code
    3. hdfs-site.xml 
      dfs.data.dir
      /usr/local/hadoop/data
      View Code
    4. mapred-site.xml
      mapred.job.tracker
      hadoop.master:9000
      View Code
  4. 4个配置文件完成后:
    1. vim /etc/profile 配置JAVA_HOME、JRE_HOME、HADOOP_HOME、CLASSPATH、PATH
    2. source /etc/profile 让配置生效
    3. hadoop  使用该命令测试hadoop配置是否成功
    4. cd ..
    5. cd bin/
    6. ls
    7. hadoop namenode -format 格式化namenode
    8. start -all .sh
    9. jps 使用jps查看hadoop是否正常运行
    10. hadoop fs -ls / 查看hadoop有哪些文件

 

 

    

  

  

      

    

 

转载于:https://www.cnblogs.com/zhangyu317/p/11217277.html

你可能感兴趣的文章
bzoj 2600: [Ioi2011]ricehub
查看>>
创建数据库,表
查看>>
工厂模式
查看>>
计算机网络基础知识
查看>>
C#里如何遍历枚举所有的项
查看>>
超级强大的鼠标手势工具
查看>>
常用Dockerfile举例
查看>>
jquery的ajax用法
查看>>
设计模式-策略模式(Strategy)
查看>>
django orm 数据查询详解
查看>>
JarvisOJ Basic 熟悉的声音
查看>>
C# list导出Excel(二)
查看>>
CAS 单点登录模块学习
查看>>
Android应用开发-网络编程①
查看>>
input中的name,value以及label中的for
查看>>
静态库制作-混编(工程是oc为基础)
查看>>
jQuery 显示加载更多
查看>>
Confluence 6 系统运行信息中的 JVM 内存使用情况
查看>>
Confluence 6 升级以后
查看>>
用JS实现版面拖拽效果
查看>>