欢迎访问昆山宝鼎软件有限公司网站! 设为首页 | 网站地图 | XML | RSS订阅 | 宝鼎邮箱 | 宝鼎售后问题提交 | 后台管理


新闻资讯

MENU

软件开发知识

如何利用Tableau对Amazon Redshift数据进行可视化

点击: 次  来源: 时间:2017-03-13

作为数据分析师,相信大家对于Tableau与AWS Redshift不会陌生。而且很明显,将Reshift列式数据库的成熟度与速度优势与Tableau的功能丰富性与交互能力相结合,会带来极为出色的实际体验。

在今天的文章中,我们将共同了解二者的整合过程,而最终目标则是建立展示页面以查看访问者数量对性能造成的影响。

备注:在本文中,我们使用Tableau桌面版10.0,大家可以免费进行下载。下载并安装完成后,大家可以通过下文内容将其接入Redshift。当然,您需要确保拥有自己的Redshift信息(包括主机名称、数据库名称、用户名及密码)。

连接
在Tableau桌面版的启动页中,于Coonect下选择Amazon Redshift选项。

输入您的Redshift信息,而后点击Sign In。

在上图所示的数据源页面执行以下操作:

点击页面顶部的数据源名称,而后输入Tableau所将使用的惟一数据源名称。最好按照数据源命名约定选择名称,以帮助其他用户了解Tableau当前接入了哪个数据源。

在Schema下拉菜单中选择schema,或者使用搜索schema名称后出现的文本框亦可。

在Table下选择table,或者使用搜索table名称后出现的文本框亦可。

将该表拖入操作区,而后点击sheet tab以开始分析。

现在Tableau已经接入我们的Redshift数据库,接下来开始对数据进行可视化。

可视化
在Tableau桌面版的菜单栏中选择Data,而后在弹出菜单下方的数据源列表中选择一个table。在本示例中,我们希望基于clientid表创建报告与图表(如下图)。

接下来,在该菜单栏中选择Dashboard > New Dashboard。

当前显示的图像会返回Timestamp、PagePath以及Clientid进行的页面访问数字:

如上一阶段所示,到这里我们已经可以尝试利用Tableau的简单UI与过滤器根据实际业务需求进行数据可视化了:
在menu栏中选择Worksheet > New worksheet。

接下来在menu栏中选择Data > Users。

在左侧的Dimensions and Measures部分,大家可以选择相关列与行进行工作表调整。

举例来说,以下截屏按日期显示出哪些页面曾被查看及具体查看次数。

另外,如果大家希望查看某一特定Clientid(通用版本尚不支持现成的此信息查看),则可为其创建类似的图像:

特定clientid截至目前的特定页面访问次数

或者,大家也可以对数据排列进行简单更改,从而为同一示例创建不同的可视化方式:

由特定clientid按timestamp对特定页面进行的访问次数

如大家所见,利用Tableau桌面版能够轻松完成Redshift数据的可视化处理。

高级用例:使用Panoply
虽然Tableau与Redshift能够很好地实现整合,但由于期间需要配合大量准备步骤,因此相关工作可能繁琐、冗长且难以维护。在高级用例当中,数据库通常会保存大量表,且需要连续处理以实现可视化。

正因为如此,我们应当利用Panoply.io解决相关难题:

Panoply.io可视化插件

Panoply.io提供一套数据仓库解决方案,可实现从数据源提取到加载再到转换的整个流程。除了能够直接与Tableau相集成外,Panoply服务还可与Chart.io、Looker及PowerBI等外部商业智能工具进行对接。

这套自动化数据管理解决方案利用Redshift基础设施并通过消除日常管理流程对其进行增强,这种强化能力同时涵盖底层基础设施与数据库层。大家可以将Panoply视为一款自动化数据工程机器人,用以处理大部分数据工程技术任务及数据库管理操作。

原文标题:How to Visualize Your Amazon Redshift Data Using Tableau,原文作者:Alon Brody