原标题:HDFS的特性与不足
原文来自:CSDN 原文链接:https://blog.csdn.net/weixin_43893397/article/details/102914257
特性
海量的数据储存: HDFS可横向扩展,存储的文件可以支持PB级或者更高级别的数据储存
高容错性: 数据保存多个副本,副本丢失后自动恢复. 可构建在廉价(与小型机,大型机相比较)的机器上,实现线性扩展(集群配置随着服务器的增加而增加),当集群增加新的节点之后,NameNode也可以感知,进行负载均衡,讲数据分发和备份数据均衡到新的节点上
商用硬件: hadoop并不需要运行在昂贵高可靠的硬件上,它是设计运行在商用硬件(廉价商业硬件)的集群上
大文件储存:HDFS采用数据块的方式储存数据,将数据物理切分成多个小的数据块,所以再大的文件,切分后,大数据变成了很多的小数据,用户读取时,重新将给多个小数据拼接起来
不足
不能做到低延迟数据访问:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟访问数据的业务需求不适合HDFS
不适合大量的小文件储存:由于NameNode将文件系统的元数据信息存储在内存中,因此该文件系统所能储存的文件总数受限于NameNode的内存容量,根据经验,每个文件,目录和数据块的储存信息大约占150个字节.因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存,如果是上亿级别的,就会超出当前硬件的能力
修改文件:HDFS适合一次写入,多次读取的场景,对于上传的HDFS上的文件,不支持修改文件,hadoop2.0虽然支持了文件追加功能,但不建议对HDFS上的文件进行修改,因为效率是在是太低了!
不支持用户的并行写:同一时间内,只能有一个用户执行写操作
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com
原标题:HDFS的特性与不足
原文来自:CSDN 原文链接:https://blog.csdn.net/weixin_43893397/article/details/102914257
特性
海量的数据储存: HDFS可横向扩展,存储的文件可以支持PB级或者更高级别的数据储存
高容错性: 数据保存多个副本,副本丢失后自动恢复. 可构建在廉价(与小型机,大型机相比较)的机器上,实现线性扩展(集群配置随着服务器的增加而增加),当集群增加新的节点之后,NameNode也可以感知,进行负载均衡,讲数据分发和备份数据均衡到新的节点上
商用硬件: hadoop并不需要运行在昂贵高可靠的硬件上,它是设计运行在商用硬件(廉价商业硬件)的集群上
大文件储存:HDFS采用数据块的方式储存数据,将数据物理切分成多个小的数据块,所以再大的文件,切分后,大数据变成了很多的小数据,用户读取时,重新将给多个小数据拼接起来
不足
不能做到低延迟数据访问:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟访问数据的业务需求不适合HDFS
不适合大量的小文件储存:由于NameNode将文件系统的元数据信息存储在内存中,因此该文件系统所能储存的文件总数受限于NameNode的内存容量,根据经验,每个文件,目录和数据块的储存信息大约占150个字节.因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存,如果是上亿级别的,就会超出当前硬件的能力
修改文件:HDFS适合一次写入,多次读取的场景,对于上传的HDFS上的文件,不支持修改文件,hadoop2.0虽然支持了文件追加功能,但不建议对HDFS上的文件进行修改,因为效率是在是太低了!
不支持用户的并行写:同一时间内,只能有一个用户执行写操作
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com
原标题:HDFS的特性与不足
原文来自:CSDN 原文链接:https://blog.csdn.net/weixin_43893397/article/details/102914257
特性
海量的数据储存: HDFS可横向扩展,存储的文件可以支持PB级或者更高级别的数据储存
高容错性: 数据保存多个副本,副本丢失后自动恢复. 可构建在廉价(与小型机,大型机相比较)的机器上,实现线性扩展(集群配置随着服务器的增加而增加),当集群增加新的节点之后,NameNode也可以感知,进行负载均衡,讲数据分发和备份数据均衡到新的节点上
商用硬件: hadoop并不需要运行在昂贵高可靠的硬件上,它是设计运行在商用硬件(廉价商业硬件)的集群上
大文件储存:HDFS采用数据块的方式储存数据,将数据物理切分成多个小的数据块,所以再大的文件,切分后,大数据变成了很多的小数据,用户读取时,重新将给多个小数据拼接起来
不足
不能做到低延迟数据访问:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟访问数据的业务需求不适合HDFS
不适合大量的小文件储存:由于NameNode将文件系统的元数据信息存储在内存中,因此该文件系统所能储存的文件总数受限于NameNode的内存容量,根据经验,每个文件,目录和数据块的储存信息大约占150个字节.因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存,如果是上亿级别的,就会超出当前硬件的能力
修改文件:HDFS适合一次写入,多次读取的场景,对于上传的HDFS上的文件,不支持修改文件,hadoop2.0虽然支持了文件追加功能,但不建议对HDFS上的文件进行修改,因为效率是在是太低了!
不支持用户的并行写:同一时间内,只能有一个用户执行写操作
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com