Q:什么是SparkSQL?
A:SparkSQL是一个用于处理结构化数据的Spark组件。
SparkSQL前身—Hive&Shark,Hive是最早SQL on Hadoop工具之一,使用最为广泛。缺点是采用MapReduce计算框架,中间磁盘落地消耗大量IO资源,性能太差。Shark扩展Hive内存管理、物理计划和执行三大模块。缺点对Hive依赖性太强,不能与spark其他组件集成。
SparkSQL抛弃Shark代码,汲取了Shark的一些优点,如内存列存储、Hive兼容性,重新开发。2014年6月1日,Shark和SparkSQL项目宣布停止Shark开发,团队所有资源放在SparkSQL上。
愿景:
开发者用更精简代码处理尽量少数据
自动优化执行过程
降低开发成本
提升数据分析执行效率目的
该案例暂时没有网友评论
✖
案例意见反馈
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作