|
| 1 | 2 | 3 | 4 | 5 |
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | |
|
|
|
|
|
|
|
Data Warehouse
ด้านล่างนี้เป็นความรู้ Overview ประมวลจากที่ได้ไปเรียนมากับที่ Search ใน Internet ค่ะ อ่านโดยใช้วิจารณญาณด้วยนะคะ ^_^
1.ลักษณะของ Data Warehouse ต่างกับข้อมูลโดยทั่วไปที่องค์กรจัดเก็บอย่างไร a. Data Warehouse เป็นข้อมูล History ได้จากข้อมูลการดำเนินงานในองค์กร ไม่มีการเปลี่ยนแปลงและใช้ในการวิเคราะห์สำหรับผู้บริหาร (OLAP On-line Analytical Processing) ข้อมูลที่จัดเก็บในระบบข้อมูลองค์กรเป็นข้อมูลที่ใช้ในการดำเนินธุรกิจประจำวัน มีลักษณะเป็น Summary Data มีการเปลี่ยนแปลงอยู่เสมอ (OLTP: On-line Transaction Processing)
2.องค์กรจะสร้าง Data Warehouse ได้อย่างไร a.ข้อมูลที่จะดึงจากระบบข้อมูลขององค์กรซึ่งอาจจัดเก็บใน RDBMS ต่างๆ กัน หรืออาจเป็น Flat file ก็ได้จะถูกส่งเข้าไปใน Data Warehouse โดยผ่าน Tool ETL ซึ่งอาจเป็น Tool สำเร็จรูปหรือบริษัทพัฒนาเอง b.การออกแบบ Data Warehouse จะทำการออกแบบ Schema โดยออกแบบ Fact (Measure/ค่าที่ใช้วัด) และ Dimension (มิติที่ต้องการมอง) เช่น ต้องการหายอดขายในภูมิภาคต่าง ๆ แยกตามไตรมาสและทีมขายในช่วงปี 2007-2010 ในที่นี้ Fact จะเป็น ยอดขาย ส่วน Dimension จะเป็นภูมิภาค ไตรมาส ทีมขาย ระยะเวลา Schema มีทั้งหมด 3 ประเภทได้แก่ 1.Snowflake Schema: เป็นการวาง Dimension Table ไว้รอบๆ Fact Table โดยไม่มีการ Normalize Dimension Table Schema แบบนี้เป็นที่นิยม เพราะตาม Concept ของ Data Warehouse คือเน้นการนำเสนอต่อผู้บริหารได้รวดเร็วและง่าย (Query โดยไม่ต้องอาศัยความรู้ทางเทคนิคมาก)โดยไม่ต้องคำนึงถึงประสิทธิภาพมาก (Cost) เท่า OLTP 2.Star Schema: เป็นการวาง Dimension Table ไว้รอบๆ Fact Table โดยมีการ Normalize Dimension Table 3.Starflake Schema: เป็นการผสมผสาน Snowflake และ Star คือมีทั้ง Normalize และไม่ Normalize Dimension Table c.ETL (Extract & Transform & Load) เป็นกระบวนการในการนำข้อมูลมาใส่ใน Data Warehouse ดังนี้ Extract : เนื่องจากข้อมูลที่จะเอาเข้ามาจะเป็นเพียงบางส่วนเท่าที่ต้องใช้ในการวิเคราะห์ใน Data Warehouse ไม่ใช่ข้อมูลทั้งหมด จึงต้องทำการ Extract มาเฉพาะข้อมูลที่ต้องการ Transform : ข้อมูล Legacy อาจมาจาก Database หลายประเภท และมักมีปัญหาจัดเก็บข้อมูลซ้ำซ้อน ข้อมูลบางอย่างเช่น รหัสลูกค้า Database แต่ละตัวจัดเก็บด้วยรูปแบบที่ต่างกัน หรืออาจมีปัญหาข้อมูลหายไปไม่สามารถเชื่อมโยงถึงกันได้ จึงต้องมีการทำ ETL เพื่อ Extract และ Transform Data ให้อยู่ใน Schema ของ Database ของ Data Warehouse ที่ได้ออกแบบไว้ Rule ต่างๆ ที่ใช้ในการ Transform Data จะจัดเก็บใน Metadata ๆ จะถูกปรับปรุงอยู่เสมอ เพราะหากไม่มีการแก้ไขข้อมูลใน Legacy ให้ถูกต้อง ก็อาจจมีข้อมูลผิดปกติไหลเข้าสู่ ETL ได้เสมอ จะมี Tool ที่ช่วยในการทำ Data Profiling เพื่อค้นหาข้อมูลที่ผิดปกติ เช่น SAS เช่น ต้องการจะคาดเดาชื่อที่สะกดผิดทั้งหมด แต่อ่านว่าสมชาย เหมือนกัน ต้องการหาจังหวัดกรุงเทพฯ ทั้งหมด แต่สะกดต่าง ๆ กัน เช่น กทม. กรุงเทพฯ ต้องการจะแยกที่อยู่ที่อยู่ในฟิลด์เดียวกันออกมาเป็นถนน ตำบล อำเภอ จังหวัด ระบบจะทำการแยกให้โดยใช้ Space Load: ข้อมูลใน Database จะไหลเข้าสู่ ETL แล้วถูกทำการ Extract และ Transform ก่อนที่จะถูก Load ผ่าน ETL เข้ามายัง Data Warehouse ตามช่วงเวลาที่กำหนดเช่น ทุกสิ้นเดือน
3.การใช้ประโยชน์จาก Data Warehouse OLAP : ข้อมูลที่เข้ามายัง Data Warehouse แล้ว ผู้ใช้ซึ่งเป็นผู้บริหารจะสามารถทำการ Query ข้อมูลใน Cube ได้เอง ออกมาเป็นรูปแบบต่างๆ ขึ้นอยู่กับความสามารถของ Tool เช่น Plot Graph การแสดงภาพ 3 มิติ การแสดงการกระจายข้อมูลในแผนที่ Data Mining : การหารูปแบบ (pattern) อะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมาก เช่น การค้นหากฎความสัมพันธ์ (association rules) ของสินค้าในห้างสรรพสินค้า เราอาจพบว่าลูกค้าร้อยละ 90 ที่ซื้อเบียร์ จะซื้อผ้าอ้อมเด็กด้วย, ซึ่งเป็นข้อมูลให้ทางห้างคิดรายการส่งเสริมการขายใหม่ๆ ได้
Create Date : 11 มิถุนายน 2553 |
|
2 comments |
Last Update : 11 มิถุนายน 2553 14:02:41 น. |
Counter : 1116 Pageviews. |
|
|
|
|
|
|
|
|