当前位置:首页 > 数据中心 > 正文

数据中心是怎样保存数据的


一、14.数据仓库常见的存储优化方法有哪些?

存储优化的管理方法包括数据压缩、数据重新分配、存储管理项优化、生命周期管理等方法。

数据压缩
在分布式文件系统中,数据存储在三个副本中。这意味着存储1TB逻辑数据实际上占用3TB物理空间。使用盘古RAID文件格式将存储比率从1:3提高到1:1.5。这样做的缺点是,如果数据块损坏,修复时间会比以前更长,读取性能也会降低。

数据重新分布
由于每个表的数据分布和插入顺序不同,通过改变表的数据重新分布(分布、排序),压缩效果有很大不同。(按字段)重新分配数据并优化表。

存储管理项优化:
存储管理项优化是指基于元数据对多个存储管理优化项进行诊断和处理。目前,现有的存储管理优化项包括非托管表、空表、过去62天没有访问过的表以及没有数据更新或任务的表。

生命周期管理策略
基本目标:以最低的存储成本满足最大的业务需求,从而最大化数据的价值。
a)定期删除策略:定期清理无效的历史数据。
b)完善的删除策略:及时删除ETL过程中不需要的表和临时数据以及不需要保留的数据,包括删除元数据。
c)永久保留政策:关键且不可恢复的底层数据和应用数据必须永久保留。
d)极限存储策略:镜像重复数据超高压缩。
e)冷数据管理策略:扩展永久存储策略。永久保留的数据必须迁移到冷数据中心进行永久存储。通常,对于占用存储空间超过100TB且访问频率不高的关键数据,例如超过3年的日志数据,采用冷备份。