2013年Hadoop实时查询将成现实,Cloudera公司的两个新项目:Impala 和 Trevni,将有助在2013年实现Hadoop实时查询。
Impala 是开源版的 Dremel (Dremel 是 Google 大数据查询解决方案,其原理可参见这篇博文《Google Dremel 原理 – 如何能3秒分析1PB》)。预计明年第一季度发布 Impala 的首个 beta 版。
Impala 允许你在 Hadoop 的HDFS、 Hbase 和 Hive 之上运行实时查询。不必迁移。
不过真正的变革,还得把 Doug Cutting (Lucene和 Hadoop等的作者)做的 Trevni 和 Impala 整合在一起。Trevni 是一种新的列式(columnar)数据存储格式,可保证读取大型列式存储数据集有极好性能。
在大数据实时查询性能方面, Impala+Trevni 很有希望和 Google 的 Dremel 处于同一个级别,并有更多的功能。
英文原文:Maarten Ectors,编译:伯乐在线
文章来源:伯乐在线