Hadoop (HDFS)分布式文件系统基本操作

Hadoop HDFS提供了一组命令集来操作文件,它既可以操作Hadoop分布式文件系统,也可以操作本地文件系统。但是要加上theme(Hadoop文件系统用hdfs://,本地文件系统用file://)

1. 添加文件,目录

HDFS文件系统(需要加hdfs://):

因为我们在core-site.xml中配置了fs.default.name

所以所有和HDFS打交道的命令都不需要加上前缀hdfs://192.168.129.35:9000

比如我们要在Hadoop 文件系统中创建一个目录叫 /user/hadoop-user ,则

hadoop fs -mkdir /user/hadoop-user

要查看我们创建的目录,

hadoop fs -ls /  

或者用 hadoop fs -lsr /  递归的显示子目录

本地的文件系统(需要加file://):

比如我们要查看Linux本地文件系统的/tmp/charles目录,则:

2.移动复制文件,目录

如果我们要把一个文件从本地文件系统复制到HDFS:

比如我们在/tmp/charles目录下有个文件叫 textfile.txt,那么我们想上传到HDFS中我们刚才创建的/user/hadoop-user目录下:

hadoop fs -put /tmp/charles/textfile.txt /user/hadoop-user

我们用 hadoop fs -ls 来查看是否这个文件已经被添加:

时间: 2024-10-27 08:31:18

Hadoop (HDFS)分布式文件系统基本操作的相关文章

通过Thrift访问HDFS分布式文件系统的性能瓶颈分析

引言 Hadoop提供的HDFS布式文件存储系统,提供了基于thrift的客户端访问支持,但是因为Thrift自身的访问特点,在高并发的访问情况下,thrift自身结构可能将会成为HDFS文件存储系统的一个性能瓶颈.我们先来看一下一不使用Thrfit方式访问HDFS文件系统的业务流程. 一.HDFS文件读取流程 流程说明: 使用HDFS提供的客户端开发库Client,向远程的Namenode发起RPC请求: Namenode会视情况返回文件的部分或者全部block列表,对于每个block,Nam

各种分布式文件系统的比较

适合做通用文件系统的有 MooseFS,GlusterFS,Lustre. MooseFS 支持FUSE,相对比较轻量级,对master服务器有单点依赖,用perl编写,性能相对较差,国内用的人比较多,易用,稳定,对小文件很高效. + 支持文件元信息 + mfsmount 很好用 + 编译依赖少,文档全,默认配置很好 + mfshdd.cfg 加 * 的条目会被转移到其它 chunk server,以便此 chunk server 安全退出 + 不要求 chunk server 使用的文件系统格

分布式文件系统试用比较

  MooseFS 很不错,已经实用了半月了,易用,稳定,对小文件很高效. MogileFS 据说对于 Web 2.0 应用存储图片啥的很好. GlusterFS 感觉广告宣传做的比产品本身好. OpenAFS/Coda 是很有特色的东西. Lustre 复杂,高效,适合大型集群. PVFS2 搭配定制应用会很好,据说曙光的并行文件系统就是基于 PVFS. 适合做通用文件系统的有 MooseFS,GlusterFS,Lustre. ================================

Hadoop分布式文件系统HDFS的工作原理详述

Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.要理解HDFS的内部工作原理,首先要理解什么是分布式文件系统. 1.分布式文件系统 多台计算机联网协同工作(有时也称为一个集群)就像单台系统一样解决某种问题,这样的系统我们称之为分布式系统. 分布式文件系统是分布式系统的一个子集,它们解决的问题就是数据存储.换句话说,它们是横跨在多台计算机上的存

Java访问Hadoop分布式文件系统HDFS的配置说明_java

配置文件 m103替换为hdfs服务地址. 要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建.读取. <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <co

hadoop分布式文件系统(HDFS)

1.hadoop版本介绍 0.20.2版本以前(不含该版本)的配置文件都在default.xml中. 0.20.x以后的版本不含有eclipse插件的jar包,由于eclipse的版本不一,所以就需要自己编译源码生成对应的插件. 0.20.2--0.22.x版本的配置文件集中在conf/core-site.xml. conf/hdfs-site.xml 和 conf/mapred-site.xml. 中. 0.23.x 版本有添加了yarn技术,配置文件集中在 conf/core-site.xm

Hadoop白皮书(1):分布式文件系统HDFS简介

Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统.HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案.HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为各大网站等在线服务公司的海量存储事实标准,多年来为网站客户提供了可靠高效的服务. 随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问.传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍. HDFS 通过一

分布式文件系统HDFS设计

<Hadoop 权威指南>上用这么一句话来描述HDFS: HDFS is a filesystem designed for storing very large files with streaming data access patterns, running on clusters of commodity hardware. 有几个关键性的词组:Very large files,Streaming data access,以及Commodity hardware.解下来一个一个解释.

Hadoop分布式文件系统:架构和设计要点

Hadoop分布式文件系统:架构和设计要点 原文:http://hadoop.apache.org/core/docs/current/hdfs_design.html一.前提和设计目标 1.硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速.自动的恢复是HDFS的核心架构目标. 2.跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理:比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量. 3.