SQL Server 2005 中的商务智能和数据仓库(1)

  本文概述了 SQL Server 2005 Beta 2 中“商务智能”平台的增强功能。本文并非实施指南,而是为读者提供了关于“商务智能”平台增强功能的信息。

  一、简介

  Microsoft SQL Server 2005 是一个完整的商务智能 (BI) 平台,其中为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能。本文简要介绍了您在构建分析应用程序时将要用到的一些工具,并着重介绍了一些新增功能,这些新增功能使复杂 BI 系统的构建和管理比以往更加轻松。

  下表概述了商务智能系统的组件,以及与之相应的 Microsoft SQL Server 2000 和 SQL Server 2005 组件。

组件 SQL Server 2000 SQL Server 2005
  提取、转换和加载

  数据转换服务 (DTS)

  数据转换服务 (DTS)

  关系数据仓库

  SQL Server 2000 关系数据库

  SQL Server 2005 关系数据库

  多维数据库

  SQL Server 2000 Analysis Services

  SQL Server 2005 Analysis Services

  数据挖掘

  SQL Server 2000 Analysis Services

  SQL Server 2005 Analysis Services

  托管报告

  SQL Server 2000 Reporting Services

  SQL Server 2005 Reporting Services

  特殊查询和分析

  Microsoft Office 产品(Excel、Office Web Components、Data Analyzer、Sharepoint Portal)

  Microsoft Office 产品(Excel、Office Web Components、Data Analyzer、Sharepoint Portal)

  数据库开发工具

  SQL Server 2000 企业管理器、分析管理器、查询分析器,以及各种其他工具

  SQL Server 2005 Business Intelligence Development Studio (新增!)

  数据库管理工具

  企业管理器、分析管理器

  SQL Server 2005 SQL Server Management Studio (新增!)

  SQL Server 2005 新增了两个组件:SQL Server Management Studio 和 SQL Server Business Intelligence Development Studio。其他主要的 BI 组件——DTS、Analysis Services OLAP、Analysis Services Data Mining 和 Reporting Services——在 SQL Server 2005 中得到了改进,与以前有很大的不同。SQL Server 2005 关系数据库包含一些重要的新增功能。虽然 Microsoft Office 查询和门户工具并没有包含在 SQL Server 中,但当前的发行版本力争在 SQL Server 2005 之前实现这一功能。Office 工具的 BI 功能将在 Office 产品发行周期内将得到逐步实现。

  SQL Server 2005 Business Intelligence 工具集提供了一种端到端的 BI 应用程序集成:

  设计:Business Intelligence Development Studio 是第一款专门为商务智能系统开发人员设计的集成开发环境。Business Intelligence Development Studio 构建于 Visual Studio 2005 技术之上,它为 BI 系统开发人员提供了一个丰富、完整的专业开发平台。调试、源代码控制以及脚本和代码的开发均可用于所有的 BI 应用程序组件。

  合成:“数据转换服务”已被重新编写,现在的 DTS 可以高速执行超大数据量的复杂数据集成、转换和合成。Business Intelligence Development Studio 使程序包的构建和调试变得更加生动有趣。DTS、Analysis Services 和 Reporting Services 共同提供了一个源自异类源的无缝数据视图。

  存储:在 SQL Server 2005 中,关系数据库和多维数据库之间的界限变得更加模糊。您可以将数据库存储在关系数据库、多维数据库中,或使用新增的“主动缓存”功能,充分利用两种数据库各自的优点。

  分析:一直以来,Microsoft 的数据挖掘都十分简单易用。现在,结合了其他的重要新算法(包括关联规则、时间序列、回归树、序列群集、神经网络和贝叶斯算法),使得这一功能更加完美。而在 Analysis Services 多维数据集中也添加了一些重要的新增功能:关键绩效指标框架、MDX 脚本,以及其他的内置高级业务分析方法。Reporting Services 报告提交和管理框架使得复杂的分析方法更易于向最广泛的潜在受众分发。

  交付:Reporting Services 将 Microsoft Business Intelligence 平台的用户群体延伸至那些需要使用分析功能的商务用户。Reporting Services 是一种企业托管报告环境,它通过 web 服务进行嵌入和管理。您可以用大量的交互和打印选项,以各种不同的格式个性化设置和提交报告。通过将报告以数据源的形式分发至下游商务智能,复杂分析可以覆盖更广泛的受众。Microsoft 及其合作伙伴的特殊查询和分析工具将继续承担在 Analysis Services 和关系数据库中访问数据的常用工具角色。

  管理:SQL Server Management Studio 集成了对 SQL Server 2005 所有组件的管理。Business Intelligence 从业者都将得益于 Microsoft 服务器“能力”扩展这一用户盼望已久的功能增强,即从关系引擎(伸缩性、可靠性、可用性、可编程性,等等)扩展为全套的 BI 平台组件。

  SQL Server 2005 Business Intelligence 组件的主要目标是支持在各种规模的企业中开发和使用商务智能,并使其能够供所有员工使用,不仅包括管理层和分析师,还包括操作人员和外部委托人。就此目标而言,SQL Server 2005 具有完整、集成、易用的特点,它以 web 服务的形式发布数据,而且仅通过日常硬件便可提供极佳的性能,另外它还包含许多新增功能,您可以使用这些新增功能开发创新的分析应用程序。

  二、SQL Server2005 Beta 2 入门

  在安装 SQL Server 2005 时第一点要注意的就是它的集成安装体验。您不再需要为某些功能(如 Analysis Services)而分别运行安装程序。如果某个功能(如 Reporting Services)不可安装,则说明您的计算机不满足该功能的安装要求。您可以查看说明文件,以获得有关功能必要条件的完整讨论。在大多数配置得当的机器上,安装过程中应接受所有默认设置,安装所有的主要功能:

  SQL Server 关系数据库引擎

  DTS

  Analysis Services

  Reporting Services

  SQL Server Management Studio(数据库管理工具集)

  Business Intelligence Development Studio(BI 应用程序开发工具集)

  Reporting Services 要求在机器上安装并妥善配置 IIS。由于 Reporting Services 是 2005 Business Intelligence 功能组的一个重要组成部分,我们强烈建议您花费一定的时间,执行这些配置和安装步骤。

  熟悉 Analysis Services 的客户可能会因缺少 Analysis Services 元数据仓库而感到迷惑。在 SQL Server 2000 中,Analysis Services 仓库被作为 Microsoft Access 数据库发行。Analysis Services 2005 不包含元数据仓库。相反,Analysis Services 数据库元数据信息被存储为 XML 文件格式,由 Analysis Services 进行管理。如果需要,还可以将这些 XML 文件放置在源代码控制之下。

  我们建议您使用 Business Intelligence Development Studio 进行开发,同时使用 SQL Server Management Studio 来操作和维护 BI 数据库对象。虽然您能够在 SQL Server Management Studio 中设置 DTS 包以及 Analysis Services 多维数据集和数据挖掘模型,但 Business Intelligence Development Studio 却为设计和调试 BI 应用程序提供了更好的体验。

  对于 Beta 2 而言,建议您从掌握新的应用程序入手,因为与升级现有 DTS 包或 Analysis Services 数据库相比,这样可以学到更多东西。如果您已有一个可用的包或数据库,您会发现,“重新创建”现有的包或数据会十分有用。在您熟悉了这些新增工具、功能和概念之后,便可试着升级现有对象。

  许多客户都借助 SQL Server 工具,使用熟悉的来自一个或多个源系统的商务智能结构来开发新的系统,使用 DTS 填充维度关系型数据仓库,然后再用数据仓库来填充 Analysis Services 数据库。但是,SQL Server 2005 提供了许多选项,通过消除或淡化不同的组件使其背离了这种一般化设计。

  三、关系型数据仓库

  SQL Server 2005 关系数据库引擎包含一些对数据仓库样式应用程序设计和维护大有帮助的功能。这些功能包括:

  对于超大型的表而言,表分区可快速数据的加载速度,并简化维护过程。

  轻松创建报告服务器

  Transact-SQL 方面的改进包括新增的数据类型和新增的分析功能

  联机索引操作

  细化备份/还原操作

  快速初始化文件

报告服务器
  要想将关系操作报告从事务处理数据库中分离出来,经常采用的一项技术便是维护一台报告服务器。报告服务器对事务处理数据库映像的维护一般都有一定的时间延迟,通常截止到前一天。报告服务器多用于报告功能和数据仓库提取。

  Microsoft SQL Server 2005 新增了两项功能,使报告服务器的创建和维护过程变得更加简单。SQL Server 报告服务器的延迟时间与以前相比大大缩短。同时,报告服务器被设计为充当事务处理系统的备选系统。

  要创建报告服务器,先要创建一个数据库镜像,这是 SQL Server 2005 的新增功能,它为系统的高可用性提供了一个紧急备用系统。更多信息,请阅读联机丛书的“数据库镜像概念”主题。数据库镜像不能够直接查询,这时第二个新增功能就能派上用场了。

  在镜像上创建一个数据库视图。数据库视图是数据库在某个时点的只读副本。数据库视图并非数据库的完整副本;极为节省空间。多个数据库视图还是可以同时共存,虽然维护数据库视图会对数据库视图所基于的事务处理数据库产生一定的影响。更多信息,请阅读联机丛书的“了解数据库视图”主题。

  通过在数据库镜像上创建数据库视图,您可轻松为系统的高可用性创建备用服务器,此服务器还可用作报告服务器,起着双重作用。

表分区
  分区表和分区索引将数据分割到多个水平单元中,以便于将行组映射到单独的分区中。而对数据执行操作(如查询)时,又可以将整个表或索引作为一个整体来执行。

  分区可以:

  改善数据表和索引的可管理性。

  改善多 CPU 机器上的查询性能。

  
在关系型数据仓库中,事实数据表比较适合应用表分区,而按日期范围分区又是最常见的分区策略。

  正如联机从书的“创建分区表和索引”主题中所描述的,定义分区表可分为三个步骤:

  1.

  创建一个分区函数,指定使用此函数的表如何分区。

  2.

  创建一个分区方案,指定应用此分区函数的分区在文件组上的位置。

  3.

  使用此分区方案创建一个表或索引。

  多个表可以使用同一个分区方案。

  本文讨论了事实数据表的“范围”分区,但其目的并非是针对表分区的完整讨论或教程。有兴趣的读者请参阅 SQL Server 联机丛书。

  最常用的分区方案是按日期范围(如年、季、月或甚至天)对事实数据表进行分区。在大多数情况下,对大型事实数据表进行日期分区可以提供良好的可管理性收益。为了改善查询性能,应尽量使用相同的分区方案对时间维度表进行分区。

  分区表和未分区表的行为方式相同。

  针对表的查询能够得到正确解析。

  针对表的直接插入、更新和删除会被自动解析到适当的分区。

使用数据表分区快速加载数据
  许多数据仓库应用程序都力求在越来越小的加载窗口中加载越来越多的数据量。典型的流程是这样的,先从几个源系统中提取数据开始,接下来便是在这些系统间清理、转换、合成和合理化数据。数据管理应用程序被限制为在加载窗口中完成整个提取、转换和加载流程。通常,系统的业务用户都强烈要求将数据仓库查询时的不可用时间降至最低。在设计时,数据管理应用程序的“写入”步骤(即将新数据插入到现有数据仓库的步骤)必须在短时间内完成,且要最小化对用户造成的影响。

  为了非常快速地加载数据,数据库恢复模型必须为“批量记录”恢复模式或“简单”恢复模式,而数据表必须为空,或是包含数据但不包含索引。如果满足这些条件,不作记录的加载便成为可能。在 SQL Server 2000 中,分区表出现以前,这些条件通常只在初始历史数据仓库加载中才能满足。一些具有大型数据仓库的客户已通过在分散的物理表上搭建 UNION ALL 视图,构建了一个准分区结构;这些数据表都使用不记录技术填充每个加载周期。这一方法并不尽如人意,而 SQL Server 2005 分区表则提供了更为优秀的功能。

  在 SQL Server 2005 中,您不能直接在分区中执行不记录加载。但是,却可以将数据加载到将调用伪分区的单独表中。在特定条件下,您可以用执行速度极快的元数据操作将伪分区切换到分区表中。此技术可满足我们的两个要求:

  最小化整体加载时间:在不作记录的情况下执行伪分区加载,以及

  最小化对最终用户的影响,并确保数据仓库的完整性:伪分区可以在用户查询数据仓库时被加载。在执行分区切换之前,数据管理应用程序会等到所有事实数据表全部加载完毕为止。分区切换的执行速度非常快,反应时间通常不到一秒。

  此外,伪分区还可作为单独的表进行备份,从而改善系统的可管理性。

使用表分区快速删除数据
  许多数据仓库在数据仓库中保留了一个详细活动数据的滑动窗口。例如,事实数据表可能包含三年、五年或十年的数据。每到一个时间周期,便从数据表中删除最旧的数据。持续删除数据的主要原因在于要提高查询性能并最小化存储成本。

  SQL Server 2005 分区使大型分区事实数据表中旧数据的删除倍加轻松。如上所述,简单地创建一个空白伪分区,然后将其切换到分区表中。分区表在其曾植入分区的地方有一个空白分区;伪分区在其曾为空白的地方包含数据。用户可以根据需要对伪分区进行适当的备份、截断或删除。

  或者,您还可以选择重新定义分区函数,将所有空白分区合并到一个分区中。

Transact-SQL 方面的改进新的数据类型
  SQL Server 2005 中有一些很重要的新类型,这些类型对数据仓库大有裨益:

  Varchar(max)、nvarchar(max) 和 varbinary(max) 支持 2GB 的数据,对于 text、ntext 和 image 数据类型非常有用。这些扩展的字符类型可能对在数据仓库中保存扩展的元数据和其他说明性信息非常有用。

新的分析功能
  许多新分析功能都提供了 Transact-SQL 中的基本分析功能。这些功能在那些允许用户查询关系数据库,而不是通过 Analysis Services 排他查询数据的数据仓库中非常有用。另外,在数据中转过程中,这些复杂的计算常被用来开发有价值的数据属性。

  ROW_NUMBER。返回结果集的连续行号。

  RANK。返回行在结果集中的等级。在通常情况下,RANK 值与有序数据集上的 ROW_NUMBER 值相同。但对于那些彼此之间有关联的行来说,则是所有具有相同排序值的行都有相同的等级。而下一个等级则又与 ROW_NUMBER 值相同。换句话说,如果在第一个位置存在双向关联,那么行 1 和行 2 的 RANK 就都为 1,而行 3 的 RANK 则为 3。不存在 RANK 为 2 的行。

  DENSE_RANK。返回行在结果集中的等级。DENSE_RANK 函数与 RANK 相似,只是去除了 RANK 函数所留下的空隙。在上面的示例中,行 1 和行 2 的 RANK 为 1,而行 3 的 RANK 则为 2。

  NTILE。将有序集分成指定数量、大小近似相等的组。

  在 SQL Server 2005 Beta 2 中还不能使用这些函数。

PIVOT 和 UNPIVOT 操作符
  PIVOT 操作符可以按查询中的中断值旋转结果集,从而使您可以生成交叉数据报告。例如,如果表中在两个不同的行中包含 "Actuals" 和 "Budgets" 数据,则使用 PIVOT 操作符将可以生成带有 [Actuals] 和 [Budgets] 列的交叉数据报告。

  与之相似,UNPIVOT 操作符可以将一行拆分为若干行。在此示例中,带有 [Actuals] 和 [Budgets] 列的行集可以被转换为包含这些值的多个行。

  在以前的 SQL Server 版本中,用户能够编写复杂的 Transact-SQL SELECT 语句来旋转数据。PIVOT 和 UNPIVOT 操作符则为数据旋转提供了更为简单的机制。

递归查询
  在许多方案中,“递归查询”都是非常有用的。SQL Server 2005 中的新增功能令递归查询成为可能,虽然此项功能还不是十分简单易用。

  递归查询是针对自联接表的查询。自联接表的两个常见示例有保存员工及其经理信息的数据表,和保存材料清单的数据表。在 AdventureWorks 数据库的 Employee 表中对自联接数据表进行了说明。

  查询自联接表的直接关系通常十分简单,如查询直接向经理报告的员工数量。但是,如果要回答“经理的组织中有多少名员工?”这样一个问题却十分困难。

  SQL Server 2005 中的关系数据库功能解决了这一问题,这一功能被称为“递归通用表表达式”。“附录”中包含一个递归查询的示例,该示例回答了以上定义的问题。联机丛书的 "WITH <common_table_expression>" 主题中包含更多的相关信息。

  四、提取、转换和加载 (ETL)

  数据转换服务 (DTS) 对于 SQL Server 2005 而言,是一项全新的技术。DTS 是 SQL Server 2000 中很受欢迎的一项功能,但 DTS 2005 已被重新设计成企业 ETL 平台。DTS 为构建企业级 ETL 应用程序提供了大量必需的功能,以及非常高的扩展性能。DTS 是完全可编程的、嵌入式的、可扩展的——所有这些特性都使它成为理想的 ETL 平台。

  下表总结了 DTS 2005 的这些功能。有关 ETL 系统开发 DTS 适用性更加完整的讨论,请参阅 SQL Server 联机丛书。

包开发

SQL Server 2005 的 DTS 功能 企业 ETL 开发 ETL 平台
  使用 Business Intelligence Development Studio 图形用户界面设计数据管理应用程序的 DTS 包。DTS 包的设计、开发和调试均在 Business Intelligence Development Studio 中完成,您只需从工具栏拖动任务、为其设置属性并将任务与优先约束相连接便可完成这一切。

  使用 SQL Server Management Studio 向导开发执行常规任务(如“复制数据库”)的简单 DTS 包。

  软件供应商将在其产品中嵌入 DTS 功能,构建按需生成自定义包的向导。

  将控制流从数据流中分离出来。大多数的 DTS 包都包含多个控制流任务,以及循环任务或顺序任务,这些任务都被放置在控制流窗格中。控制任务(管道任务)是包的工作动力,它拥有自己的设计表面,可用于布置数据流。控制流和数据流的分离使得程序更加容易读取。

  包变量是经过定义且可见的。变量是受限制的,如受包、循环或任务的限制。

  复杂的 ETLM 系统可以通过构建包网络实现,其中包含一个调用其他包的包。子包可以很好地重新使用逻辑、变量和上下文。DTS 2005 与 DTS 2000 相比,对嵌套数据包的需求有所减少。

  包配置框架是可扩展的系统,可用于自定义包在不同环境中的运行方式。

  DTS 程序以 XML 格式存储在文件系统或 SQL Server 中。DTS XML 文件可受源代码管理。

  DTS 2000 包迁移向导可以帮助您将包迁移至 DTS 2005,它还可以在出现升级问题的地方提供警告。

  DTS 2000 运行时包含在 SQL Server 2005 中,在不升级 DTS 2000 包的情况下,仍可运行。

  包的操作和结果会以多种形式被记录下来,分发给广泛的提供程序。

  事件处理程序逻辑只需定义一次,便可多次使用。

  与 WMI 的集成表明包可以对外部事件(例如文件复制的完成)作出响应,或抛出可供其他进程使用的 WMI 事件。

  包可重启性与事务控制和故障检查点一起,可以帮助管理员管理复杂的包,移动大量数据。

控制流

SQL Server 2005 的 DTS 功能 企业 ETL 开发 ETL 平台
  优先约束:您可以设计一个包,以在任务成功、失败或完成时将控制传递给这些不同的任务。

  循环任务包括 For、ForEach 和 Sequence 循环。包开发人员可以在数据的所有(或一组)表上、目录中的文件上或是 Analysis Services 多维数据集分区上轻松执行一组操作。

  Analysis Services 集成是无缝的,它与自动执行 Analysis Services DDL 的控制任务一起处理 Analysis Services 对象,或执行数据挖掘查询。正如下面所讨论的,DTS 管理还集成了 Analysis Services。

  VB.NET 脚本可与“脚本任务”一起使用。被称为“ActiveX 脚本任务”的第二个脚本任务主要用于向后兼容 DTS 2000。


  通信任务包括:

  消息队列

  发送邮件


  其他控制流任务包括:

  大容量插入

  执行包

  执行进程

  执行 SQL

  文件系统

  FTP

  其他任务可以使用 DTS 对象模型轻松开发。

数据流

SQL Server 2005 的 DTS 功能 企业 ETL 开发 ETL 平台
  在数据流管道中存在多个源、转换和目的。只有在转换完成时,数据才能被读取、合并和操作,然后才能写入。中转表所需的多次写入被削弱或消除;转换性能得到极大提高。

  “DTS 管道”任务使用来自多个异类数据源和本机的数据。可扩展的“数据源”体系结构支持来自平面文件、OLEDB 源(包括 DB2 和 Oracle)和原始文件的数据。其他源,包括使用特殊结构化数据的源都在计划之内。

  其他数据源可以由 Microsoft 及其合作伙伴轻松开发。

  来自多个源的数据可以与联接、查找和联合操作符相联接。这些操作都在内存中执行,不需要对数据库或文件执行写入操作。

  数据流可以使用条件分离和多播转换。类似编译器的 DTS 引擎确定了可以平行操作哪些数据流。

  大量基于行的数据转换都是由字符映射、复制映射、数据转换和派生列转换所提供的。这些操作符更像是向导,而非转换,它们提供了用户所需的大部分数据转换。

  有些数据转换任务需要对多个行中的数据进行比较。排序和聚合转换可以在数据流中以极高的性能执行这些操作,其性能远非数据库聚合可及。

  有些数据转换任务需要复杂逻辑,例如模糊匹配、模糊分组、时间维度生成以及旋转或反旋转。其他常见任务(例如维度键管理)则需要多个步骤。特殊技术和向导使这些复杂技术可供所有用户使用。

  转换后的数据可以写入异类目标,其中包括 SQL Server 表、OLEDB 数据库表、平面文件以及原始文件。

  转换后的数据可以与 Microsoft BI 解决方案的其他组件集成,其中包括 Analysis Services 数据库和数据挖掘模型。


  由转换步骤所导致的错误流可以以多种方式进行管理:

  进程内转换可以“修复”数据并重新提交主要流。

  错误流可以被记录到表或文件中,以备脱机研究和重新提交。

  其他转换和目的可以由 Microsoft 及其合作伙伴轻松开发。

开发和调试

SQL Server 2005 的 DTS 功能 企业 ETL 开发 ETL 平台
  包开发商可以在每个控制流任务中定义控制流断点。在调试过程中,断点可以定义在某些任务执行点之前、之后,或定义在这些任务执行点。

  包开发商可以为数据流中的每个转换附加一个数据查看器。在调试过程中,数据查看器会显示在该点的转换后数据流内容。

  Business Intelligence Development Studio 寄宿在 Visual Studio 中。脚本及其他编程任务可以充分利用该企业开发环境的优点。

  包开发可以帮助用户将所有包组件(包括自定义脚本和可执行程序)捆绑在一起,以用于发行测试、生产或其他客户系统。

可供 DTS 2000 开发人员使用的 DTS 2005
  DTS 2000 用户已经开发出了一套执行复杂操作的技巧。这些技巧,尤其是编写自修改包,在 DTS 2005 中不再有用武之地。在 DTS 2005 中要使用变量和配置基础结构来编写动态包、不要再试图编写自修改包。

  配置良好的变量和配置基础结构还可以减少创建复杂子包系统的需求。如果设计完善,单一包便可满足多种需求;例如,单一包可以在多种不同配置中重复使用,以用来在维度数据仓库中加载许多维度表。在 DTS 2000 中,一个复杂的 DTS 包网络可能包括 50-100 个包;而在 DTS 2005 中,一个复杂的网络可能只包含 10 个包。

  五、Analysis Services

  SQL Server 2000 Analysis Services 由两个主要的互补功能组成:联机分析处理 (OLAP) 和数据挖掘。这两个组件在 Analysis Services 2005 中仍然存在,并且是分析应用程序的基石。

  Analysis Services 2005 OLAP 中的功能改进主要可以归纳为两类改进:

  启用了一些新的分析应用程序,而达到此目的做法便是添加全新的功能,或是使复杂功能的构建变得更加简单。


  增强了分析应用程序的企业适应性

新增功能或改进功能 设计和部署 管理和操作
  统一维度模型合并了关系数据模型和 OLAP 数据模型的最佳特征。后文将对“统一维度”模型进行更为详细的讨论。

  主动缓存使您可以用极低的成本操作低延迟时间的应用程序。后文将对主动缓存进行更为详细的讨论。

  关键绩效指标 (KPI) 框架为定义公司度量提供了一个基于服务器的简单机制。KPI 由值、目标、当前状态和趋势表达式组成,并通过诸如量尺和停车灯之类的简单图形显示出来。

  翻译为用户提供了一个简单的集中管理机制,使他们可以用自己喜欢的语言来存储和显示分析数据。一个分析数据库可以用多种语言来显示。


  MDX 脚本是用于定义“计算成员”、“命名集”和“单元计算”的新机制。

  “MDX 脚本”的语法得到了简化和改进。“MDX 脚本”可以分步调试。

  “MDX 脚本”计算可以缓存和保留,这可以提供优良的查询性能,即使面对复杂计算也没有问题。

  “MDX 脚本”计算可以维护实时的动态计算行为。

  后文将对“MDX 脚本”进行更为详细的讨论。

  Analysis Services 存储过程允许您使用公共语言运行时编程语言(如 C++、VB 或 C)创建外部例程。存储过程扩展了 Analysis Services 2000 用户定义函数 (UDF) 所提供的功能。后文将对 Analysis Services 存储过程进行更为详细的讨论。

  数据写回增强使其性能较以前有了十倍的增长。分析应用程序可以将数据写回到聚合单元中,然后再有选择地执行聚合数据到其底层叶数据的分配工作。


  内置的业务规则、工具和向导使艰难的设计变得简单:

  半累积度量值

  时间智能

  帐户智能

  财务聚合

  货币转换

  时间维度生成

  数据源视图提供了一种机制,既可以简化,又可以扩展分析应用程序底层的关系数据库。后文将对“数据源视图”进行更为详细的讨论。

  Analysis Services 的数据定义语言是 XML。Analysis Services 元数据知识库已经没有了,取而代之的是由 Analysis Services 服务器所存储和管理的 XML 文件。


  Web 服务:XML for Analysis (XML/A) 是基于标准的本机协议,其作用是与 Analysis Services 服务器进行通信。启用了新型的应用程序,而且开发这些应用程序还十分简单,这些应用程序将分析与操作实时集成在一起。

  将 XML/A 作为本机协议,便可以把 Analysis Services 客户端配置为具有零覆盖范围,且每台服务器都自动成为一种 web 服务。

  具有小覆盖范围的 Win32 层可用于向后兼容与 Analysis Services 2000 一起使用的,用于 OLAP、ADOMD 和 ADOMD.Net 的 OLE DB 工具。许多客户和开发人员将继续使用 ADOMD.Net 对象模型来构建 Analysis Services 自定义应用程序。


  计算被集中在服务器端。与 Analysis Services 2000 不同,Analysis Services 2005 在服务器端执行所有计算。这样做的优点十分显著:

  客户端的占用空间为零;消除了客户端缓存。

  复杂计算的查询性能得到极大提高。

  实现这些改进的代价是使对最简单查询的查询性能有轻微的降低,因为这些查询在 Analysis Services 2000 中是在客户端缓存中被解析的。

  开发和管理工具(Business Intelligence Development Studio 和 SQL Server Management Studio)是用于商务智能应用程序的第一款完整的开发环境。这些新工具可以帮助您捕获和建模所有数据,加快应用程序的开发速度。


  Analysis Services 2005 对其权限模型作了改进。不同的角色和权限包括:

  服务器管理员

  数据库管理员

  处理对象

  查看对象结构(由对象授予)

  改变对象结构


  Analysis Services 2005 包含 150 多项安全性设计更改。在安全模型方面的改进包括:

  Analysis Services 具有多条安全防线,属于“默认安全设置”。

  管理权限得到更为细致的划分;不同数据库对象的权限得以分离,执行设计更改的权限与处理权限也得到了分离。

  可以对本地多维数据集进行加密。

  Analysis Services 在运行时其权限级别为可能的最低级别。

  可以对客户端/服务器端通信进行加密和签名,以避免出现数据包窃听、欺诈、篡改和拒绝的情况。

  加密操作在服务器端强制执行,服务器可以拒绝不使用加密的客户端。


  Analysis Services 2005 服务器可以使用工具生成可监控的服务器跟踪事件,所用工具的示例有 SQL Server 事件探查器,此工具在 SQL Server 关系数据库中长期以来一直可用。

  审核应用程序的访问和使用

  审核应用程序和服务器事件以提高服务器的可管理性。

  审核应用程序错误,与“Microsoft 支持”合作,以便更快地解决问题。


  得到改进的计算性能来源于以下几项功能:

  服务器计算缓存在多个用户间共享

  查询优化器会用可以提高性能的等价语句“重写”查询。

  得到改进的 NonEmpty 性能

  非重复计数度量值得到改进

  Analysis Services 2005 对中间层体系结构有着广泛的支持。用低空间占用率的对象模型交付可伸缩的中间层——可扩展到支持成千上万名并行用户。其在广泛区域网络中的部署性能虽未有过正式的测评,但肯定要优于 SQL Server 2000。

  Analysis Services 2005 支持无限大的维度。因为维度不需要再在内存中缓存。

  Analysis Services 2005 支持在标准管理工具集中平行处理分区。


  SQL Server Management Studio 将被用来管理所有的 SQL Server 数据库。它可以使用 Analysis Services 对关系数据库提供集成的管理,其集成工具可用于:

  服务器控制台管理(取代了企业管理器和分析管理器),

  查询分析(SQL 和 MDX),

  来自关系引擎和 Analysis Services 的分析事件,

  “飞行记录仪”和“捕获重放”功能可以自动捕获服务器事件,这可以有效地帮助您(或 Microsoft Services)诊断问题。

  一种新的对象模型,分析管理对象 (AMO),取代了 DSO。DSO 的作用是向后兼容,真正起作用的是 AMO,它提供了丰富的新功能,尤其是它可以用管理工具和开发工具通过脚本来创建对象和修改对象,令人印象深刻。

  构建分析数据库的途径主要有两个:

  完全自定义:从源开始,通常是从一个关系型源开始,定义维度、多维数据集、关键绩效指标、计算和数据挖掘模型。此途径对那些业已具备数据仓库或主题集市的客户来说十分适合。在多维数据集向导的第一个屏幕中,此选项的标签为“使用现有数据库/数据仓库”。

  可自定义的模板:从模板开始,定义和生成一个完整的应用程序,包括关系数据库、DTS 包和 Analysis Services OLAP 数据库。设计和生成这些组件的目的是使这些组件无缝合作,共同组成一个完整的应用程序。此途径对于那些从模板开始安装完整商务智能解决方案的客户来说十分适合。在多维数据集向导的第一个屏幕中,此选项的标签为“在不具备数据源的前提下设计商务智能模型”。

  不管采用哪种方法,基本的系统设计都假设使用当前熟悉的、来自一个或多个源的商务智能结构来填充维度关系型数据仓库,然后再用数据仓库来填充 Analysis Services 数据库。但是,SQL Server 2005 提供了许多选项,通过消除或淡化不同的组件使其背离了这种常规设计。在下面“统一维度”模型中讨论了一些其他的备选系统。

从现有的源数据库创建自定义数据库
  创建 Analysis Services 数据库的第一种方法最为 SQL Server 2000 的用户所熟悉。即从任意结构的源数据库开始着手创建数据库:

  按事实数据表和维度表构建一个维度数据库,或

  任何其他的数据库结构,包括标准化的事务系统。

  SQL Server 2005 中可从标准化数据库寻源的能力是对 Analysis Services 2000 的一大突破,在 Analysis Services 2000 中,执行此操作需要一个维度结构,此结构或是星型的,或是雪花型的,或是拉伸型的。此功能使您可以轻松地开发具有极低延迟时间的商务智能应用程序。

  通过直接在事务数据库内构建 Analysis Services 数据库,而不需要先构建正式的数据仓库,可以用较低的成本,轻松有效地满足许多用户的要求。如果您需要仅对数据执行最低的数据转换、清理和集成便投入使用,则可考虑使用一个 Analysis Services 数据库来补充或替换现有的关系报告。您可以充分利用 Analysis Services 的功能和交互性,更好地管理事务系统中的负载。

  虽然可以直接从事务系统构建和维护 Analysis Services 数据库,但只有先构建关系型数据仓库才能最好地满足许多企业分析的要求。复杂的数据集成和数据更改管理问题可以通过典型的数据仓库体系结构得到最好的解决,其中 Analysis Services 数据库充当着查询和分析引擎的角色。

数据源和数据源视图
  构建分析应用程序的第一步就是在 Business Intelligence Development Studio 中创建一个新的 Analysis Services 项目。创建了空项目之后,应当创建一个“数据源”并将其与源数据库建立连接,此源数据库可以是任何受支持的关系数据库管理系统中的数据库。对于 Beta 2 版本,建议您将 SQL Server 2000 或 SQL Server 2005 关系数据库作为源。

  “数据源”负责为源数据连接存储信息。“数据源视图”中包含着源数据库表相关子集的信息。此信息不只局限于源数据库中表的物理结构;您还可以添加诸如关系、表和列的友好名称、计算列和命名查询之类的信息。

  “数据源视图”可以在 BI 项目和 DTS 项目之间共享。“数据源视图”很有用处,尤其是在以下几种情况中:

  源数据库包含成千上万个表,但其中只有相对少数的表在 BI 应用程序中真正有用。

  Analysis Services 数据库使用来自多个源的数据,这些源有多重数据库、服务器、平面文件或 RDBMS。

  BI 系统开发人员不具有源数据库中的系统管理权限,且不允许创建物理视图或修改源数据库。

  BI 系统开发人员需要以“脱机”模式工作,必须断开与源数据库的连接。设计和开发任务针对“数据源视图”发生,而“数据源视图”已从源数据中分离出来。

  您为“数据源视图”设置良好名称和关系所作的投资将换来分析应用程序的轻松开发。

创建维度和多维数据集
  创建了“数据源视图”之后,便可以右击“解决方案资源管理器”窗格中的“多维数据集”图标,选择“新建多维数据集”,创建一个多维数据集。您可以启用 IntelliCube 检测和建议。如果您选择使用 IntelliCube,则必须决定是否构建一个已为报告经过旋转优化的多维数据集。IntelliCube 技术会对“数据源视图”中的数据库和数据基数关系进行检查,并按事实数据表、维度表或用于解析多对多关系的维度-事实桥接表来智能呈现表特征。对于 Beta 2 版本来说,选择是为旋转还是为报告优化多维数据集和维度存在一些微小的差别。唯一的差别就是 IntelliCube 是否会尝试在维度属性之间创建层次关系。由于层次易于创建,也易于毁坏,因此无须担心会花费太多时间和精力。

  建议您在此“多维数据集向导”的初始屏幕后立即点击“完成”按钮。这样会一次定义好所需的 Analysis Services 数据库、维度、层次、属性和多维数据集。您可以对此设计进行编辑,但通常情况下,仔细一点儿走完向导,并在过程中作出一些明智的选择会更加有效。

  实施完“多维数据集向导”之后,您可能会发现您更喜欢用“维度向导”来逐一地创建复杂的维度,要启动“维度向导”,只需在“解决方案资源管理器”窗格中右击“维度”即可。仔细定义完大型维度(例如“产品”、“客户”和“时间”)后,启动“多维数据集向导”,并确保在适当的位置包括这些预定义的维度。

构建和部署
  到此为止,前面执行的这些步骤已在您的开发机器上以 XML 文件轻松创建了维度和多维数据集定义和结构。Business Intelligence Development Studio 和“配置管理器”使您可以对目标服务器上的项目构建和部署过程进行管理。默认情况下,“部署”目标服务器就是您的本地服务器。您可以创建适合其他环境部署的备选配置。项目的主要属性,如目标服务器的名称和数据源连接字符串等,可能会因配置而不同。

  要在开发循环过程中预览和测试多维数据集和维度,请从 Business Intelligence Development Studio 的菜单中选择“部署”,在指定的目标服务器上构建和部署项目。或者,单击 F5,或选择“调试”(位于 Business Intelligence Development Studio 主菜单中)。这样会启动几个调试和浏览工具中的一个,具体启动哪个,要取决于您所执行的操作以及您选择“部署”的时间。根据此上下文,“部署”过程会启动多维数据集浏览器、MDX 脚本调试器或 KPI 浏览器。

  您可能想在定义完系统的维度、度量值和多维数据集后查看一下系统原型。请使用相对较少的数据针对开发数据库进行处理,以验证数据和结构的行为是否与预期的行为相一致。

  作为原型的一部分,您可能想设计一些更为复杂的“Analysis Services 数据库”、“关键绩效指标”、“操作”和“计算”组件。如果您的数据库是被对不同数据视图感兴趣的不同用户团体使用的话,请深入查看“透视”和备选的安全计划。如果您计划部署可供国际上不同语言的用户使用的数据库,则可以使用“翻译”功能引入本地化项目名称。最终,原型会评估备选的物理配置,例如“分区”和不同的“主动缓存”选项。

  在 Analysis Service 数据库开发完成之后,便可以部署数据库对象,以便于进行最终测试、临时过渡并投入生产服务器。在构建阶段的项目输出可以用作 Analysis Services 部署实用工具的输入。此实用工具可以帮助您部署和处理数据库。

从模板创建可自定义的数据库
  我们刚刚描述了从已知源创建自定义 Analysis Services 数据库的基本步骤。这种通过“多维数据集向导”和“维度向导”创建的方法与创建 Analysis Services 2000 数据库的标准方法十分类似。

  创建 2005 分析应用程序的另外一种备选方法就是选择“多维数据集向导”第二个屏幕上的“在不具备数据源的前提下设计商务智能模型”选项。这种通过向导创建的方法与 SQL Server 2000 Accelerator for Business Intelligence 的设计体验十分类似。这种设计体验会从模板生成一个完全可自定义的应用程序,此处的模板:具有丰富的维度结构和分析功能,还有可能包括一个关系型数据仓库和 DTS 包。Microsoft、集成商或独立软件供应商都可以提供这种模板。

  不管采用哪种通过向导创建的方法,是从源数据库创建,还是从模板创建,都可以设计相同的 Analysis Services 数据库。第一种选项假设您将创建一个完全自定义的系统。对象名称和结构都是可以完全自定义的,初始设计是受源数据库中的名称和结构所驱动的。模板选项也可以创建一个完全自定义的数据库,但是初始设计是受专家主题区域模板所驱动的。

  许多用户都喜欢将这两种方法结合使用。一个非常常见的方法就是用现有源创建 Analysis Services 数据库中的大部分内容,而用模板法生成“时间”维度。

统一维度模型
  Analysis Services 2005 使关系数据库与多维度 OLAP 数据库之间的界线变得更加模糊。OLAP 数据库分析应用程序一直以来都具有着巨大的优势,这些优势主要体现在以下几个方面:

  卓越的查询性能、

  丰富的分析功能,以及

  其易于业务分析师使用的操作简单性。

  不过,在实现这些功能的同时也带来了一定的负面效应。到目前为止,已经发现的问题就有 OLAP 数据库(包括 Analysis Services 2000 在内)很难交付以下内容:

  包括多对多关系的复杂架构、

  对广泛属性集的详细报告,以及

  低延迟数据。

  通过将传统 OLAP 分析与关系报告二者的优点相结合,Analysis Services 2005 能够提供一个可以同时覆盖这两方面需求的统一维度模型。在 SQL Server 2005 中定义的一套多维数据集和维度被称为统一维度模型 (Unified Dimensional Model),或 UDM。UDM 的优势和灵活性引发了设计领域的巨变。过去,BI 架构师会权衡备选基础结构的收益和成本,并在关系数据库和 OLAP 数据库之间作出选择。现在,架构师可以设计一个“统一维度模型”,然后从传统极限中确定一点用于放置 Analysis Services 系统逻辑设计和物理配置。

基于属性的维度
  Analysis Services 2005 围绕维度的属性,而非维度的层次构建多维数据集。在 Analysis Services 2000 中,维度设计由层次主宰,层次的示例有 {年、月、日} 或 {国家、地区、城市}。这些层次要求各层之间存在密切的数据关系。作为成员属性和虚拟维度公开的“属性”是“二等公民”。虽然有可能在物理维度中生成属性,但性能因素却使这一技术的广泛使用大打折扣。熟悉关系结构的用户对 OLAP 数据库中对层次的过度侧重深感困惑。

  Analysis Services 2005 结构与关系型维度结构更为类似。一个维度可包含多个属性,每个属性都可用于切片和筛选查询,同时每个查询又可以合并到层次中,而不必考虑数据的相互关系。

  有 OLAP 背景的用户都知道强大的层次结构的价值,有一点您可以肯定,那就是“城市”清晰地汇总为“地区”和“国家”。这种自然层次结构依然存在,并应在适当的位置进行定义:查询性能会因为这种层次结构而得到提高。

时间: 2024-04-20 02:14:58

SQL Server 2005 中的商务智能和数据仓库(1)的相关文章

SQL Server 2005 中的商务智能和数据仓库(2)

例如,设想一个"客户"维度.关系型源表有八列: • 客户键 • 客户名称 • 年龄 • 性别 • 电子邮件 • 城市 • 地区 • 国家 相应的 Analysis Services 维度应具有七个属性: • 客户(整型键.以"客户名称"作为名称) • 年龄.性别.电子邮件.城市.地区.国家 数据中存在一种自然层次结构,{国家.地区.城市.客户}.出于导航目的,应用程序开发人员可以选择创建第二个层次结构:{年龄.性别}.商务用户并没有看到这两个层次结构行为方式之间有何

SQL Server 2005中三种插入XML数据的方法

server|xml|插入|数据 我们知道SQL Server 2005中增加了XML类型,也就是说在创建表的时候可以指定某一列为XML类型,如:CREATE TABLE customers(  name VARCHAR(20) NOT NULL PRIMARY KEY,    description XML) 那么如何向XML类型的列中插入数据呢?基本上有三种办法:1.直接使用字符串,如INSERT INTO customers (feedName, feedXML) VALUES  ('Ra

sql server 2005中新增加的try catch学习

server sql server 2005中新增加的try catch,可以很容易捕捉异常了,今天大概学习看了下,归纳下要点如下 基本用法BEGIN TRY     {  sql_statement |  statement_block  }END TRYBEGIN CATCH     {  sql_statement |  statement_block }END CATCH,和普通语言的异常处理用法差不多,但要注意的是,SQL SERVER只捕捉那些不是严重的异常,当比如数据库不能连接等这

SQL Server 2005中的DDL触发器的实现

server|触发器     SQL SERVER 2005中,新增加了许多新的特性,其中的DDL触发器是个不错的选择,根据资料初步学习如下,现整理之:    在sql server 2000中,只能为针对表发出的 DML 语句(INSERT.UPDATE 和 DELETE)定义 AFTER 触发器.SQL Server 2005 可以就整个服务器或数据库的某个范围为 DDL 事件定义触发器.可以为单个 DDL 语句(例如,CREATE_TABLE)或者为一组语句(例如,DDL_DATABASE

使用 SQL Server 2005中的 CLR 集成

本文描述了数据库应用程序开发人员和架构师如何利用 SQL Server 2005 中的 CLR 集成功能.本文对基于 CLR 的编程方式与 SQL Server 中支持的现有编程模型(如 TransacT-SQL 和扩展存储过程)进行了比较,并且强调了各自相对的优缺点.还提供了一组选择合适的编程替代方法的高级指导,以及一些示例和代码示例. 一.简介 Microsoft 通过宿主 Microsoft .NET Framework 2.0 公共语言运行库 (CLR),SQL Server 2005显

Microsoft SQL Server 2005 中的 XML 支持(3)

四.SQL Server 2005 中的客户端 XML 处理 XML 数据类型的客户端支持.NET 框架 V2.0 中的 ADO.NET XML 支持 在 SqlDataReader.GetSqlXml() 方法的 System.Data.SqlTypes 命名空间中,XML 数据类型是作为类 SqlXml 公开的.可以使用 SqlXml.CreateReader() 函数从 SqlXml 对象获得 XmlReader. 类型化 XML 列的 XML 架构集合的名称由三部分组成,可以从 XML

Microsoft SQL Server 2005 中的 XML 支持(1)

本文探讨 SQL Server 2005 中内置的 XML 支持.描述了这种支持如何与 .NET 框架 V2.0 和本机代码(例如 OLEDB 和 SQLXML)均支持的客户端编程相集成. 一.简介 可扩展标记语言 (XML) 作为一种与平台无关的数据表示形式已被广泛采用.它对于在松散耦合且完全不同的系统,以及各种企业到企业 (B2B) 应用和工作流范畴内交换信息是很有用的.数据交换已成为 XML 技术的主要驱动力之一.. XML 在企业应用程序中的使用正日益广泛,它主要用于对半结构化和非结构化

SQL Server 2005 中的 Multiple Active Result Set (MARS)

简介 所有 SQL Server 数据访问应用程序编程接口 (API) 都提供了一个抽象来表示会话和会话中的请求.SQL Server 2000 以及更早的版本限制编程模型,它要求任何时候一个给定的会话中最多只能有一个待定的请求.有几个替代办法被用来解决这种限制,在这些替代办法中,最常见的可能就是服务器端光标.SQL Server 2005 实现了 Multiple Active Result Set (MARS),它解除了这个约束.本文介绍了 MARS 的设计.结构和语义变更,以及为了从这些改

SQL Server 2005 中的批编译、重新编译和计划缓存问题(4)

下面,考虑以下 T-SQL 代码段:-- dbo.someTable will be used to populate a temp table-- subsequently.create table dbo.someTable (a int not null, b int not null)godeclare @i intset @i = 1while (@i <= 2000)begin insert into dbo.someTable values (@i, @i+5) set @i =