Q:Hive与传统数据库相比?
A:
(1)HADOOP+HIVE的数据仓库突破了传统数据仓库数据量过大导致的数据提取缓慢的问题,在数据量上不再有限制。在传统数据库里,表的模式是在数据加载时强制确定的。如果在加载时发现数据不符合模式,则被拒绝加载数据。因为数据是在写入数据库是对照模式进行检查,因此这一设计有时被称为“写时模式”(schema on write)。在另外一方面,Hive对数据的验证并在不加载数据时进行,而在查询时进行。这称为“读时模式”(schema on read)。
(2)Hive引入索引,以在某些情况下加快查询的速度。对于SELECT * FROM t WHERE x=a在这样的查询中,因为只需要扫描表文件的一部分,因此可以利用在列x上的索引
(3)hive是基于hadoop的HDFS,因此hive的可扩展性和hadoop的可扩展性是一致。
(4)Hive缺点:延迟较高,暂不支持事务类操作,不适用在联机事务处理,在线事务查询。
所以总结下来,Hive有以下优势:
l Hive的数据“读模式”,比传统数据库“写模式”加载数据更迅速
l Hive的索引查询速度更快
l Hive的可扩展性更好
l Hive建立在集群上并利用 MapReduce进行并行计算,因此支持很大规模的数据
l Hive格式很灵活,它没有定义专门的数据格式,数据格式可以由用户指定
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作