Bloggang.com : : MAT9 :

Data Warehouse

ด้านล่างนี้เป็นความรู้ Overview ประมวลจากที่ได้ไปเรียนมากับที่ Search ใน Internet ค่ะ อ่านโดยใช้วิจารณญาณด้วยนะคะ ^_^

1.ลักษณะของ Data Warehouse ต่างกับข้อมูลโดยทั่วไปที่องค์กรจัดเก็บอย่างไร
a. Data Warehouse เป็นข้อมูล History ได้จากข้อมูลการดำเนินงานในองค์กร ไม่มีการเปลี่ยนแปลงและใช้ในการวิเคราะห์สำหรับผู้บริหาร (OLAP – On-line Analytical Processing) ข้อมูลที่จัดเก็บในระบบข้อมูลองค์กรเป็นข้อมูลที่ใช้ในการดำเนินธุรกิจประจำวัน มีลักษณะเป็น Summary Data มีการเปลี่ยนแปลงอยู่เสมอ (OLTP: On-line Transaction Processing)

2.องค์กรจะสร้าง Data Warehouse ได้อย่างไร
a.ข้อมูลที่จะดึงจากระบบข้อมูลขององค์กรซึ่งอาจจัดเก็บใน RDBMS ต่างๆ กัน หรืออาจเป็น Flat file ก็ได้จะถูกส่งเข้าไปใน Data Warehouse โดยผ่าน Tool ETL ซึ่งอาจเป็น Tool สำเร็จรูปหรือบริษัทพัฒนาเอง
b.การออกแบบ Data Warehouse
• จะทำการออกแบบ Schema โดยออกแบบ Fact (Measure/ค่าที่ใช้วัด) และ Dimension (มิติที่ต้องการมอง) เช่น ต้องการหายอดขายในภูมิภาคต่าง ๆ แยกตามไตรมาสและทีมขายในช่วงปี 2007-2010 ในที่นี้ Fact จะเป็น ยอดขาย ส่วน Dimension จะเป็นภูมิภาค ไตรมาส ทีมขาย ระยะเวลา Schema มีทั้งหมด 3 ประเภทได้แก่
1.Snowflake Schema: เป็นการวาง Dimension Table ไว้รอบๆ Fact Table โดยไม่มีการ Normalize Dimension Table Schema แบบนี้เป็นที่นิยม เพราะตาม Concept ของ Data Warehouse คือเน้นการนำเสนอต่อผู้บริหารได้รวดเร็วและง่าย (Query โดยไม่ต้องอาศัยความรู้ทางเทคนิคมาก)โดยไม่ต้องคำนึงถึงประสิทธิภาพมาก (Cost) เท่า OLTP
2.Star Schema: เป็นการวาง Dimension Table ไว้รอบๆ Fact Table โดยมีการ Normalize Dimension Table
3.Starflake Schema: เป็นการผสมผสาน Snowflake และ Star คือมีทั้ง Normalize และไม่ Normalize Dimension Table
c.ETL (Extract & Transform & Load) เป็นกระบวนการในการนำข้อมูลมาใส่ใน Data Warehouse ดังนี้
• Extract : เนื่องจากข้อมูลที่จะเอาเข้ามาจะเป็นเพียงบางส่วนเท่าที่ต้องใช้ในการวิเคราะห์ใน Data Warehouse ไม่ใช่ข้อมูลทั้งหมด จึงต้องทำการ Extract มาเฉพาะข้อมูลที่ต้องการ
• Transform : ข้อมูล Legacy อาจมาจาก Database หลายประเภท และมักมีปัญหาจัดเก็บข้อมูลซ้ำซ้อน ข้อมูลบางอย่างเช่น รหัสลูกค้า Database แต่ละตัวจัดเก็บด้วยรูปแบบที่ต่างกัน หรืออาจมีปัญหาข้อมูลหายไปไม่สามารถเชื่อมโยงถึงกันได้ จึงต้องมีการทำ ETL เพื่อ Extract และ Transform Data ให้อยู่ใน Schema ของ Database ของ Data Warehouse ที่ได้ออกแบบไว้ Rule ต่างๆ ที่ใช้ในการ Transform Data จะจัดเก็บใน Metadata ๆ จะถูกปรับปรุงอยู่เสมอ เพราะหากไม่มีการแก้ไขข้อมูลใน Legacy ให้ถูกต้อง ก็อาจจมีข้อมูลผิดปกติไหลเข้าสู่ ETL ได้เสมอ จะมี Tool ที่ช่วยในการทำ Data Profiling เพื่อค้นหาข้อมูลที่ผิดปกติ เช่น SAS เช่น ต้องการจะคาดเดาชื่อที่สะกดผิดทั้งหมด แต่อ่านว่าสมชาย เหมือนกัน ต้องการหาจังหวัดกรุงเทพฯ ทั้งหมด แต่สะกดต่าง ๆ กัน เช่น กทม. กรุงเทพฯ ต้องการจะแยกที่อยู่ที่อยู่ในฟิลด์เดียวกันออกมาเป็นถนน ตำบล อำเภอ จังหวัด ระบบจะทำการแยกให้โดยใช้ Space
• Load: ข้อมูลใน Database จะไหลเข้าสู่ ETL แล้วถูกทำการ Extract และ Transform ก่อนที่จะถูก Load ผ่าน ETL เข้ามายัง Data Warehouse ตามช่วงเวลาที่กำหนดเช่น ทุกสิ้นเดือน

3.การใช้ประโยชน์จาก Data Warehouse
•OLAP : ข้อมูลที่เข้ามายัง Data Warehouse แล้ว ผู้ใช้ซึ่งเป็นผู้บริหารจะสามารถทำการ Query ข้อมูลใน Cube ได้เอง ออกมาเป็นรูปแบบต่างๆ ขึ้นอยู่กับความสามารถของ Tool เช่น Plot Graph การแสดงภาพ 3 มิติ การแสดงการกระจายข้อมูลในแผนที่
•Data Mining : การหารูปแบบ (pattern) อะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมาก เช่น การค้นหากฎความสัมพันธ์ (association rules) ของสินค้าในห้างสรรพสินค้า เราอาจพบว่าลูกค้าร้อยละ 90 ที่ซื้อเบียร์ จะซื้อผ้าอ้อมเด็กด้วย, ซึ่งเป็นข้อมูลให้ทางห้างคิดรายการส่งเสริมการขายใหม่ๆ ได้

Create Date : 11 มิถุนายน 2553

2 comments

Last Update : 11 มิถุนายน 2553 14:02:41 น.

Counter : 1169 Pageviews.

แวะมาทักทายยามเย็นๆ ค่ะ ^____^

โดย: หาแฟนตัวเป็นเกลียว 11 มิถุนายน 2553 15:28:40 น.

โดย: นาฬิกาสีชมพู 12 มิถุนายน 2553 0:12:12 น.