電子商務師考試內容:數據倉庫

傳統的數據庫技術是單一的數據資源,即數據庫爲中心,進行從事事務處理到決策分析等各種類型的數據處理工作。近年來,隨着計算機應用,網絡計算,開始向兩個不同的方向拓展,一是廣度計算,一是深度計算,廣度計算的含義是把計算機的應用範圍儘量擴大,間時實現廣泛的數據交流,互聯網就是廣度計算的特徵,另一方面就是人們對以往計算機的簡單數據操作,提出了更高的要求,希望計算機能夠更多的參與數據分析與決策的制定等領域。下面yjbys考試網小編爲大家講述了電子商務師考試內容:數據倉庫,供參考。

電子商務師考試內容:數據倉庫

經過數十年的發展,在企業的數據庫中已經保存了大量的日常業務數據,並且傳統的業務系統一般也是直接建立在這種事務處理環境上的。隨着技術的進步,人們逐漸認識到,在目前的計算機處理能力上,事物處理和分析處理具有極不相同的性質,直接使用事務處理環境來支持決策是行不通的。

事務處理環境不適宜DSS(決策支持系統)應用的原因主要有以下五條:

  (1)事務處理和分析處理的性能特性不同

在事務處理環境中,用戶的行爲特點是數據的存取操作頻率高而每次操作處理的時間短;在分析處理環境中,用戶的行爲模式與此完全不同,某個DSS應用程序可能需要連續幾個小時,從而消耗大量的系統資源。將具有如此不同處理性能的兩種應用放在同一個環境中運行顯然是不適當的。

  (2)數據集成問題

DSS需要集成的數據。全面而正確的數據是進行有效分析和決策的首要前提,相關數據收集得越完整,得到的結果就越可靠。當前絕大多數企業內數據的真正狀況是分散而非集成的。造成這種分散的原因有多種,主要有事務處理應用分散、“蜘蛛網”問題、數據不一致問題、外部數據和非結構化數據。

  (3)數據動態集成問題

靜態集成的最大缺點在於,如果在數據集成後數據源中數據發生了變化,這些變化將不能反映給決策者,導致決策者使用的是過時的數據。集成數據必須以一定的週期(例如24小時)進行刷新,顯然,事務處理系統不具備動態集成的能力。

  (4)歷史數據問題

事務處理一般只需要當前數據,在數據庫中一般也是存儲短期數據,且不同數據的保存期限也不一樣,即使有一些歷史數據保存下來了,也被束之高閣,未得到充分利用。但對於決策分析而言,歷史數據是相當重要的,許多分析方法必須以大量的歷史數據爲依託。沒有歷史數據的詳細分析,是難以把握企業的發展趨勢的。DSS對數據在空間和時間的廣度上都有了更高的要求,而事務處理環境難以滿足這些要求。

  (5)數據的`綜合問題

在事務處理系統中積累了大量的細節數據,一般而臺,DSS並不對這些細節數據進行分析:在分析前,往往需要對細節數據進行不同程度的綜合。而事務處理系統不具備這種綜合能力,根據規範化理論,這種綜合還往往因爲是一種數據冗餘而加以限制。

要提高分析和決策的效率和有效性,分析型處理及其數據必須與操作型處理及其數據相分離。因此,必須把分析型數據從事務處理環境中提取出來,按照 DSS 處理的需要進行重新組織,建立單獨的分析處理環境,數據倉庫正是爲了構建這種新的分析處理環境中出現的一種數據存儲和組織技術。着名的數據倉庫專家n在其着作《Building the Data warehouse》 一書中給予如下描述:數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non –Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策。

根據數據倉庫概念的含義,數據倉庫擁有以下四個特點:

 (1)面向主題。操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。

(2)集成的。面向事務處理的操作型數據庫通常與某些特定的應用相關,數據庫之間相互獨立,並且往往是異構的。而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。

(3)相對穩定的。操作型數據庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進人數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

(4)反映歷史變化。操作型數據庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到月前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測

整個數據倉庫系統是一個包含四個層次的體系結構。

數據源是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放於RDBMS中的各種業務處理數據和各類文檔數據。外部信息包括各類法律法規,市場信息和競爭對手的信息等等。

數據的存儲與管理是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別於傳統數據庫。同時也決定了其對外部數據的表現形式。要決定採用什麼產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點着手分析。針對現有各業務系統的數據,進行抽取、清理,並有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋範圍可以分爲企業級數據倉庫和部門級數據倉庫(通常稱爲數據集市)。

OLAP服務器:對分析需要的數據進行有效集成。按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。其具體實現可以分爲:ROLAP、MOLAP和HOLAP。ROLAP基本數據和聚合數據均存放在RDBMS之中; MOLAP基本數據和聚合數據均存放於多維數據庫中;HOLAP基本數據存放於RDBMS之中,聚合數據存放於多維數據庫中。

前端工具主要包括各種報表工具、查詢、數據分析工具、數據挖掘工具以及各種基於數據倉庫或數據集市的應用開發工具。其中數據分析工具主要針對OLAP服務器,報表工具、數據挖掘工具主要針對數據倉庫。

數據倉庫組織和管理數據的方法與普通數據庫不同。主要表現在三個方面: