java架构师培训-分布式储存架构详解

2021年01月17日 15:01

110

    随着数据中心业务数据的不断增加,海量数据挖掘和大数据日志分析正逐渐成为主要的应用场景。面对极其灵活的存储要求和性能要求,传统的数据中心独立或独立的SAN存储设备基本上不能满足大数据处理的需求。像数据库系统一样,独立存储设备在性能和数据存储容量方面也面临某些瓶颈。

640.jpg

    传统的数据中心通常具有集中式存储架构。单个SAN或IPSAN存储设备通常配置2-8个控制器,并通过存储扩展柜扩展容量。如果提高性能,则需要增加控制器和缓存,甚至需要将存储设备型号更改为高端存储。根据集中式存储体系结构,单个存储的性能和扩展能力受到限制,并且通常无法实现线性扩展。随着存储容量的增加,存储性能将先提高,然后在达到一定瓶颈后逐渐降低。由于一开始增加大量磁盘会提高整体存储的读写性能,但是当磁盘性能达到控制器的性能时,将严重影响控制器的数据处理和操作,并且性能会逐渐下降。


    面对海量PB级数据,如果使用传统独立SAN存储设备,要么扩展能力达不到,要么扩展能力可以达到海量PB级别,但是容量和性能不会线性增长,而且以后存储扩容和运维成本也非常高。


    面对数据中心越来越多的大数据业务增长需求,首先要能存得下大量数据。传统的存储系统容量是有限的,又无法跨越多个存储设备,即使利用虚拟化技术做存储资源整合,那么单位存储成本也会非常高,而且数据处理性能有限。


    以Hadoop为例,这是一款比较成熟而且应用比较多的大数据处理的分布式开源软件。其最底部是HDFS分布式存储。HDFS的设计本质就是为了大量的数据能够分布式存储而存在的。HDFS可以将数据存放在很多不同的机器上。而用户不必关心具体的数据在哪,HDFS会管理这些数据。HDFS是一个高度容错的分布式存储系统。可以分布式部署,以流式访问模式访问应用程序的数据,可以大大提高整个系统的数据吞吐量,非常合适用于具有超大数据集的应用中,而且随着整个分布式存储系统的扩展,容量和性能会成正比进行线性增长,非常适合大数据类的业务处理和应用。


    基于分布式架构的数据库和存储都是未来数据中心必不可少的发展方向之一,没有分布式架构,数据中心就没有能力管理大数据。


  推荐阅读:jvm培训:如何判断哪些对象需要回收?


更多鲁班学院java高级培训免费课程试听地址https://www.lubanjava.com/course.html

鲁班学院java高级培训课程https://www.lubanjava.com/course/detail/519.html

加群即可领取鲁班学院最新Java高级培训课程资料学习包 群号:700541970


咨询(2)
免费试听
领取优惠
加群交流

扫一扫
加群领取架构师资料

售后反馈
返回顶部