Apache Kylin 3.1.0 部署和简易测试
后知后觉 暂无评论

Apache Kylin 是一个开源的、分布式的分析型数据仓库,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。

产品结构逻辑如下表

+----------------------------------------------------------+
| BI Layer    |  Interactive  |  Reporting  |  Dashboard   | 
| OLAP Engine |                 Apache Kylin               |
| Hadoop      | Hive/HDFS/Kafka | MR/Spark | Hbase/Parquet |
|----------------------------------------------------------+

Kylin

在官网的下载链接中有多种版本,3.x 版本的软件包一般存在 cdh57/cdh60/hadoop3/hbase1x 四种后缀,这里简单说明一下几种后缀的区别。

后缀说明
-cdh57适用于 CDH 5.7.x 版本
-cdh60适用于 CDH 6.0.x 版本
-hadoop3适用于 Hadoop 3.x 版本
-hbase1x适用于 Hadoop 2.x + Hbase 1.x 组合版本

环境

本文的基础环境如下表

产品版本理论可用范围
Hadoop2.9.22.7.x ~ 2.9.x
Hive2.3.92.3.x
HBase1.3.51.3.x
ZooKeeper3.4.14理论上不挑版本

下载

因为 3.1.x 已经是旧版本,新版本包含了 bugfix,因此该版本已经归档,需要从归档站点下载

wget https://archive.apache.org/dist/kylin/apache-kylin-3.1.0/apache-kylin-3.1.0-bin-hbase1x.tar.gz

解压

sudo tar xf apache-kylin-3.1.0-bin-hbase1x.tar.gz -C /opt/

授权

sudo chown -R $USER:$USER /opt/apache-kylin-3.1.0-bin-hbase1x/

配置

先确保 Hive Hadoop HBase ZooKeeper 服务都已经正常启动并可用后,执行环境检查。

## 环境检查(看到全PASS即可)
$ cd /opt/apache-kylin-3.1.0-bin-hbase1x/
$ bin/check-env.sh 
Retrieving hadoop conf dir...
...................................................[PASS]
KYLIN_HOME is set to /opt/apache-kylin-3.1.0-bin-hbase1x
Checking HBase
...................................................[PASS]
Checking hive
...................................................[PASS]
Checking hadoop shell
...................................................[PASS]
Checking hdfs working dir
...................................................[PASS]
Retrieving Spark dependency...
Optional dependency spark not found, if you need this; set SPARK_HOME, or run bin/download-spark.sh
...................................................[PASS]
Retrieving Flink dependency...
Optional dependency flink not found, if you need this; set FLINK_HOME, or run bin/download-flink.sh
...................................................[PASS]
Retrieving kafka dependency...
Couldn't find kafka home. If you want to enable streaming processing, Please set KAFKA_HOME to the path which contains kafka dependencies.
...................................................[PASS]
Spark Flink Kafka 三个组件为可选组件,不影响集群工作,可忽略,但是部分功能可能依赖这部分产品,根据需要部署可选组件即可。

启动

bin/kylin.sh start

启动后使用浏览器访问 http://172.16.16.231:7070/kylin (IP地址根据实际域名或者机器地址修改)

登录界面

登录用户:ADMIN
登录密码:KYLIN

登录后

常见问题

a) 如果在检测环境时报错 /opt/apache-kylin-3.1.0-bin-hbase1x/bin/check-port-availability.sh: line 30: netstat: command not found

这是因为脚本需要调用 netstat 来检测端口是否被占用

b) 如果在启动服务时报错 Apache Kylin Unable to find HBase common lib

这是因为 CLASSPATH 设置错误,需要手动执行命令。

export HBASE_CLASSPATH=$HBASE_HOME/lib/*

或者将其加入到 /etc/profile.d/hadoop.sh 中即可。

c) 如果在启动服务时报错 Failed to find metadata store by url: kylin_metadata@hbase

可尝试进入 zkCli.sh 中将 /hbase/table 表删除,然后重启 HBase 和 ZooKeeper,再尝试启动 Kylin。


附录

参考链接

本文撰写于一年前,如出现图片失效或有任何问题,请在下方留言。博主看到后将及时修正,谢谢!
禁用 / 当前已拒绝评论,仅可查看「历史评论」。