大数据存储和管理发展过程中出现的四类大数据存储和管理数据库系统(参考《大数据挑战与NoSQL数据库技术》)。
一、并行数据库
并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据库模型并且支持SQL语句查询,但为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQL查询的分区执行。
水平划分的主要思想是:根据某种策略将关系表中的元组分布到集群中的不同节点上,这些节点上的表结构是一样的,这样就可以对元组并行处理。(现有分区策略:哈希分区、范围分区、循环分区)
优点:高性能和高可用性。通过多个节点并行执行数据库任务,提高整个数据库系统的性能和可用性。
缺点:1.没有较好的弹性。这对中小型企业有利,但当数据需要转移时,代价大,会导致某段时间内不可访问。2.容错性差。
二、NoSQL数据管理系统
NoSQL系统普遍采用的一些技术:
1.简单数据模型。不支持外键和跨记录的关系,一次获取单个记录的约束极大地增强了系统的可扩展性,可以在单台机器中执行,没有分布式事务的开销。
2.元数据和应用数据的分离。
3.弱一致性。
优点:
1.避免不必要的复杂性。
2.高吞吐量。
3.高水平扩展能力和低端硬件集群。可以很好地进行水平扩展。
4.避免了昂贵的对象--关系映射。避免了数据库中关系模型和程序中对象模型相互转化的代价。
缺点:
1.数据模型和查询语言没有经过数学验证。导致NoSQL较为混乱。
2.不支持ACID特征。
3.功能简单。
4.没有统一的查询模型。NoSQL系统一般提供不同查询模型,这一定程度上增加了开发者的负担。
三、NewSQL数据管理系统
特点:可扩展、高性能。1.取消了耗费资源的缓冲池,在内存中运行整个数据库。2.放弃了单线程服务的锁机制,也通过使用冗余机器来实现复制和故障恢复,取代原有的昂贵的恢复系统。
四、云数据管理
云数据管理指的是“数据库即服务”,用户无须在本机安装数据库管理软件,也不需要搭建自己的数据管理集群,而只需要使用服务提供商提供的数据库服务。
优点:
1.透明性。用户不用考虑服务实现所使用的软硬件问题,利用接口就可使用服务。
2.可伸缩性。用户可以根据自己的需求申请各种资源。
3.高性价比。节约了硬件费用和软件版权费用。
缺点:用户隐私和安全问题、服务可靠性问题、服务质量保证问题。