资源经验分享HDFS的特性与不足

HDFS的特性与不足

2019-11-07 | |  99 |   0

原标题:HDFS的特性与不足

原文来自:CSDN      原文链接:https://blog.csdn.net/weixin_43893397/article/details/102914257


特性

  1. 海量的数据储存: HDFS可横向扩展,存储的文件可以支持PB级或者更高级别的数据储存

  2. 高容错性: 数据保存多个副本,副本丢失后自动恢复. 可构建在廉价(与小型机,大型机相比较)的机器上,实现线性扩展(集群配置随着服务器的增加而增加),当集群增加新的节点之后,NameNode也可以感知,进行负载均衡,讲数据分发和备份数据均衡到新的节点上

  3. 商用硬件:  hadoop并不需要运行在昂贵高可靠的硬件上,它是设计运行在商用硬件(廉价商业硬件)的集群上

  4. 大文件储存:HDFS采用数据块的方式储存数据,将数据物理切分成多个小的数据块,所以再大的文件,切分后,大数据变成了很多的小数据,用户读取时,重新将给多个小数据拼接起来

不足

  1. 不能做到低延迟数据访问:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟访问数据的业务需求不适合HDFS

  2. 不适合大量的小文件储存:由于NameNode将文件系统的元数据信息存储在内存中,因此该文件系统所能储存的文件总数受限于NameNode的内存容量,根据经验,每个文件,目录和数据块的储存信息大约占150个字节.因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存,如果是上亿级别的,就会超出当前硬件的能力

  3. 修改文件:HDFS适合一次写入,多次读取的场景,对于上传的HDFS上的文件,不支持修改文件,hadoop2.0虽然支持了文件追加功能,但不建议对HDFS上的文件进行修改,因为效率是在是太低了!

  4. 不支持用户的并行写:同一时间内,只能有一个用户执行写操作

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

原标题:HDFS的特性与不足

原文来自:CSDN      原文链接:https://blog.csdn.net/weixin_43893397/article/details/102914257


特性

  1. 海量的数据储存: HDFS可横向扩展,存储的文件可以支持PB级或者更高级别的数据储存

  2. 高容错性: 数据保存多个副本,副本丢失后自动恢复. 可构建在廉价(与小型机,大型机相比较)的机器上,实现线性扩展(集群配置随着服务器的增加而增加),当集群增加新的节点之后,NameNode也可以感知,进行负载均衡,讲数据分发和备份数据均衡到新的节点上

  3. 商用硬件:  hadoop并不需要运行在昂贵高可靠的硬件上,它是设计运行在商用硬件(廉价商业硬件)的集群上

  4. 大文件储存:HDFS采用数据块的方式储存数据,将数据物理切分成多个小的数据块,所以再大的文件,切分后,大数据变成了很多的小数据,用户读取时,重新将给多个小数据拼接起来

不足

  1. 不能做到低延迟数据访问:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟访问数据的业务需求不适合HDFS

  2. 不适合大量的小文件储存:由于NameNode将文件系统的元数据信息存储在内存中,因此该文件系统所能储存的文件总数受限于NameNode的内存容量,根据经验,每个文件,目录和数据块的储存信息大约占150个字节.因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存,如果是上亿级别的,就会超出当前硬件的能力

  3. 修改文件:HDFS适合一次写入,多次读取的场景,对于上传的HDFS上的文件,不支持修改文件,hadoop2.0虽然支持了文件追加功能,但不建议对HDFS上的文件进行修改,因为效率是在是太低了!

  4. 不支持用户的并行写:同一时间内,只能有一个用户执行写操作

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

原标题:HDFS的特性与不足

原文来自:CSDN      原文链接:https://blog.csdn.net/weixin_43893397/article/details/102914257


特性

  1. 海量的数据储存: HDFS可横向扩展,存储的文件可以支持PB级或者更高级别的数据储存

  2. 高容错性: 数据保存多个副本,副本丢失后自动恢复. 可构建在廉价(与小型机,大型机相比较)的机器上,实现线性扩展(集群配置随着服务器的增加而增加),当集群增加新的节点之后,NameNode也可以感知,进行负载均衡,讲数据分发和备份数据均衡到新的节点上

  3. 商用硬件:  hadoop并不需要运行在昂贵高可靠的硬件上,它是设计运行在商用硬件(廉价商业硬件)的集群上

  4. 大文件储存:HDFS采用数据块的方式储存数据,将数据物理切分成多个小的数据块,所以再大的文件,切分后,大数据变成了很多的小数据,用户读取时,重新将给多个小数据拼接起来

不足

  1. 不能做到低延迟数据访问:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟访问数据的业务需求不适合HDFS

  2. 不适合大量的小文件储存:由于NameNode将文件系统的元数据信息存储在内存中,因此该文件系统所能储存的文件总数受限于NameNode的内存容量,根据经验,每个文件,目录和数据块的储存信息大约占150个字节.因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存,如果是上亿级别的,就会超出当前硬件的能力

  3. 修改文件:HDFS适合一次写入,多次读取的场景,对于上传的HDFS上的文件,不支持修改文件,hadoop2.0虽然支持了文件追加功能,但不建议对HDFS上的文件进行修改,因为效率是在是太低了!

  4. 不支持用户的并行写:同一时间内,只能有一个用户执行写操作

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:C语言-求八皇后所有解

下一篇:用OpenCV(python)编写一个程序,实现打开摄像头并保存一张照片的功能

用户评价
全部评价

热门资源

  • Python 爬虫(二)...

    所谓爬虫就是模拟客户端发送网络请求,获取网络响...

  • TensorFlow从1到2...

    原文第四篇中,我们介绍了官方的入门案例MNIST,功...

  • TensorFlow从1到2...

    “回归”这个词,既是Regression算法的名称,也代表...

  • 机器学习中的熵、...

    熵 (entropy) 这一词最初来源于热力学。1948年,克...

  • TensorFlow2.0(10...

    前面的博客中我们说过,在加载数据和预处理数据时...