详解如何使用 SPSS + BigInsights 共同构架大数据分析平台

相关背景及概念介绍

IBM SPSS Modeler（以下简称 Modeler）是一款数据挖掘分析的行业软件，其采用数据流的方式来展示数据挖掘的操作过程，并结合 CRISP-DM 工业标准打造了一个支持众多数据挖掘操作的应用平台。

IBM SPSS Analytic Server是大数据分析的解决方案，它提供了一个易于实现的框架，从而能够在分布式文件系统上来执行大数据分析。它将 IBM SPSS 现有的商业分析技术与大数据技术相结合，使得用户能够使用复杂的分析算法以高可伸缩的方式来解决基于大数据的分析问题。

IBM InfoSphere BigInsights是IBM基于开源Hadoop框架开发的企业级大数据平台，即集成了Hadoop生态系统中众多主流的开源组件，例如HDFS、MapReduce、YARN、Spark、HIVE、HBASE等，也为企业客户开发了众多实用的数据处理和分析组件，例如可视化数据探索组件BigSheets、大数据SQL访问引擎BigSQL、商业数据分析组件BigR等，帮助企业客户更快更便捷的搭建自己的核心大数据平台，并将数据转化为商业价值。

安装配置

安装环境

硬件：3台HP X86服务器，24核，64GB内存，8*1TB硬盘

操作系统：Redhat 6.5

软件：

BigInsigtsV4.1( IOP + Data Analytics)

SPSS AS 2.1

SPSS Modeler Server 17.1

SPSS Modeler Client 17.1

SPSS AS 2.1和Big Insights 4.1的安装概述

SPSS AS 2.1和Big Insights 4.1的安装是通过Ambari平台配置，Ambari 跟 Hadoop 等开源软件一样，也是 Apache Software Foundation 中的一个项目，并且是顶级项目。目前最新的发布版本是 2.0.1，未来不久将发布 2.1 版本。就 Ambari 的作用来说，就是创建、管理、监视Hadoop 的集群，但是这里的 Hadoop 是广义，指的是 Hadoop 整个生态圈（例如Hive，Hbase，Sqoop，Zookeeper 等），而并不仅是特指Hadoop。用一句话来说，Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具。

SPSS AS 2.1具体安装步骤

1.SPSS AS 2.1的安装文件准备：将IBM-SPSS-AnalyticServer-2.1.0.0-1.x86_64.rpm 和IBM-SPSS-AnalyticServer-ambari-2.1-BI-4.1-2.1.0.0-1.x86_64.rpm 放到以下路径：/home/root/repos/IBM-SPSS-AnalyticServer/x86_64

2.创建本地存储库定义，例如在 /etc/yum.repos.d/ 中创建名为 analyticserver.repo(对于RHEL、CentOS)或者创建包含以下内容的 /etc/zypp/repos.d/(对于SLES)。下图是RHEL环境下内容：

[IBM-SPSS-AnalyticServer]

name=IBM-SPSS-AnalyticServer-2.1.0.0

baseurl=file:///home/root/repos/IBM-SPSS-AnalyticServer/x86_64

enabled=1

gpgcheck=0

protect=1