creatio ex nihilo

ศล
Location :
กรุงเทพ Thailand

[Profile ทั้งหมด]

ให้ทิปเจ้าของ Blog [?]
ฝากข้อความหลังไมค์
Rss Feed
Smember
ผู้ติดตามบล็อก : 85 คน [?]




Group Blog
 
All Blogs
 
Friends' blogs
[Add ศล's blog to your web]
Links
 

 

นักสืบหมากรุก

โจทย์ข้อนี้เป็นคำถามที่ผมนำไปตั้งกระทู้ไว้ในห้องหว้ากอ ผูกเรื่องว่าภาพที่เห็นนี่นะครับ เป็นศึกระหว่างจิ้งจอกเงิน (ขาว) กับคุณลุงแว่นใจดี (ดำ) และมีผู้ชมหลายท่านแต่ละท่านพูดดังนี้



คุณชาติ "คุณลุงแว่นมีโอกาสชนะ"
คุณเกียรตินำ "คุณลุงแว่นแกไม่เดินคิงเลย"
คุณหลานแว่น "จิ้งจอกเงินเดินคิงเป็นจำนวนคู่ที"
อ. DK "เกมนี้มีสิทธิ์เสมอกัน"
น้าพร "ไม่แน่หรอกครับ อ. DK"
อ. ksk "สีขาวมีบิชอบอย่างน้อย 3 ตัว"
ศล "ไม่แน่หรอกครับ อ. ksk"

ทั้ง 7 คนนี้มีอยู่หนึ่งคนที่พูดผิดแน่นอน คำถามคือ ใคร? ใครที่พอรู้จักหมากรุกฝรั่งผมเชื่อว่าตอบได้โดยไม่ยากเย็นอะไรครับ ปัญหาที่ยกมานี้ผมดัดแปลงมาจากโจทย์ตัวอย่างในบทนำหนังสือ The Chess Mysteries of Sherlock Holmes เขียนโดยนักแต่งปริศนานักตรรกศาสตร์ชั้นยอด Raymond Smullyan

คุณซึ่งไม่ได้ดูเกมมาตั้งแต่คน เห็นแค่ภาพนี้เป็นเพียงภาพเดียว คุณจะรู้ได้ยังไงว่าใครพูดเท็จ ดูคุณชาติพูดครับ "คุณลุงแว่นมีโอกาสชนะ" ประโยคนี้มีความหมายเดียวกับ "คุณลุงแว่นมีโอกาสแพ้" ในคณิตศาสตร์ความน่าจะเป็น สมมติคุณชาติพูดว่า "คุณลุงแว่นมีโอกาสชนะ 0.01%" นั่นเท่ากับพูดว่า "คุณลุงแว่นมีโอกาสแพ้ 99.99%" แต่ในประโยคดังกล่าวคุณชาติไม่ได้ใส่ค่าโอกาสชนะลงไป ประโยคของคุณชาติจึงถูกแน่นอน ดูคุณเกียรตินำบ้าง "คุณลุงแว่นแกไม่เดินคิงเลย" และคิงในภาพที่คุณเห็นก็อยู่ตำแหน่งตั้งต้นของมัน แน่นอนว่าคุณเกียรตินำอาจจะพูดโกหกก็ได้ แต่คุณก็ไม่มีข้อมูลใด ๆ มากพอจะมั่นใจว่าคุณเกียรตินำพูดโกหกแน่นอน ทำนองเดียวกับคุณหลานแว่นครับ เป็นข้อมูลที่อาจจะเป็นจริงหรืออาจจะไม่เป็นจริงก็ได้ และเราก็ไม่มีหลักฐานอะไรนำไปหักล้างว่ามันไม่เป็นจริง 100% ส่วน อ. DK กับน้าพรก็พูดด้วยประโยคที่สมมูลกันเหมือนกรณีที่คำพูดของคุณชาติสมมูลกับ "คุณลุงแว่นมีโอกาสแพ้" เอาล่ะ เหลือสองคนสุดท้าย อ. ksk กับ ผม ถ้าสีขาวมีบิชอบอย่างน้อยสามตัวแน่ ๆ ผมโกหก แต่ถ้าไม่จำเป็นว่ามีอย่างน้อย 3 ตัว อ. ksk เป็นผู้พูดเท็จ สังเกตบิชอบขาวบนช่องดำครับ ตำแหน่งเริ่มต้นมันจะยืนบนช่องดำซึ่งเบี้ยขาวสองตัว b2 กับ d2 ยังอยู่ตำแหน่งตั้งต้น นั่นแปลว่า บิชอบขาวที่เราเห็นบนกระดาน ไม่ได้เป็นบิชอบโดยกำเนิด เพราะบิชอบบนช่องดำโดยกำเนิดที่ c1 ไม่มีทางเดินออกมาได้เลยตราบเท่าที่เบี้ยสองตัวนั้นขวางอยู่ ฉะนั้น ฝ่ายขาวมีบิชอบอย่างน้อย 3 ตัวครับ และ ผมโกหก




 

Create Date : 27 ธันวาคม 2551    
Last Update : 27 ธันวาคม 2551 20:43:10 น.
Counter : 1006 Pageviews.  

หูทอง MP3 กับเพลงคลาสสิก

น้องปิ๊กขอให้เอาเรื่อง "หูทอง MP3 กับเพลงคลาสสิก" ที่ผมเคยเขียนไว้มาลงใหม่อีกรอบ ก็ต้องรับบัญชาโดยดีครับ ข้อมูลบางอย่างอาจจะเก่าไปสักนิดเพราะเขียนหลายปีแล้ว แต่ภาพโดยรวมน่าจะยังโอเคอยู่ ให้ถือว่า MP3 เป็นตัวแทนของ perceptual audio coding ที่มันเป็นแบบ lossy compression นะครับ

.............................................


ขอลองเขียนอะไรบ้า ๆ สักวัน ในบทที่ 4 นี้บางคุณที่รักอ่านชื่อแล้วอาจจะเห็นว่าไม่เกี่ยวกับการฟังเพลงคลาสสิกสักนิด ซึ่งอันที่จริงมันก็ไม่เกี่ยวมาตั้งแต่บทที่ 1 นั่นแหละครับ แต่พอพูดถึงเพลงคลาสสิก ใจคุณที่รักหลายคนคงนึกถึงวัตถุทองคำ 2 สิ่ง หนึ่งนั้นคือ "บันได" (ผมได้เสนอขายไป 3 บทแล้ว) ส่วนอีกหนึ่งคือ "หู" วันนี้ผมจึงขอบ้าโดยการพยายามทำความเข้าใจบุคคลที่เราเรียกว่า "พวกหูทอง" สำหรับคุณที่เห็นคณิตศาสตร์แล้วจะเป็นลม ก็หลับตาเลยครับ เพราะผมจะอธิบายหูทองด้วยตัวเลข (อิอิ)

ก่อนอื่น มาทำความเข้าใจชื่อบทกันก่อนว่า "หูทอง" "เอ็มพีสาม" กับ "เพลงคลาสสิก" นั้น ผมจับมาเชื่อมโยงกันตรงไหนและเชื่อมโยงกันอย่างไร ดนตรีหรือเพลงไม่ว่าจะคลาสสิกหรือโมเดิร์น มันก็คือองค์ประกอบของ "เสียง" กับ "ความเงียบ"

เสียง คือ คลื่นความดันอากาศ ถ้ามันเดินทางมาถึงหู เราก็ได้ยิน ถ้ามาไม่ถึง ก็ไม่ได้ยิน ง่าย ๆ แบบนี้แหละครับ ฉะนั้น หากมีโอกาสไปชมการแสดงคอนเสิร์ตดนตรีที่ไม่มีเครื่องขยายเสียง อย่าเสียดายตังค์ไปนั่งแถวหลังเลยครับ เพราะบางคลื่นที่พลังงานต่ำ มันจะพาลไปไม่ถึงหูคุณที่รักเอา ต่อให้มันมาถึง แต่ถ้ามันมาเบามันจะถูกเสียงอื่นทำร้ายจนคุณอาจจะบ่นเสียดายตังค์ก็ได้

ตอนนี้คุณคงรู้ข้อสำคัญประการแรกแล้ว การได้ยินเสียง ขึ้นอยู่กับกำลังงานของแหล่งกำเนิดคลื่นเสียง ถ้าเคนเนดี้สีไวโอลินแรงก็ได้ยินเสียงดัง เรียกว่ามีกำลังงานมาก ถ้าสีเบาก็ได้ยินเสียงค่อยเรียกว่ามีกำลังงานน้อย แต่คุณรู้ไหมครับว่า การได้ยินเสียงของคนเรานั้นไม่ได้ตอบสนองต่อกำลังงานอย่างเดียว ยังตอบสนองต่อ "ความถี่" ของเสียงที่เราได้ยินด้วย ความถี่ คำนี้ถ้าพูดง่าย ๆ ก็คือระดับเสียงสูงเสียงต่ำนั่นแหละครับ ความถี่สูงเสียงแหลม ความถี่ต่ำเสียงทุ้ม ซึ่งปิทากอรัสได้แสดงให้เห็นมาตั้งแต่ครั้งกระโน้นแล้วว่า เส้นลวดที่สั้นลงครึ่งหนึ่งจะให้เสียงที่มีความถี่มากกว่าเดิมเท่าตัว หรือเสียงที่กระโดดสูงขึ้นไปอีกหนึ่งคู่ 8 คงเคยสังเกตเห็นว่าก่อนนักดนตรีจะแสดง เค้าจะมีการเทียบเสียงเครื่องดนตรีกัน ซึ่งตัวโน๊ตที่ใช้เทียบกันคือตัว "ลา" หรือตัว A ครับ (หมายถึง ลา ช่องที่ 2 ของบรรทัด 5 เส้นในกุญแจซอล) เพราะความถี่มันพอดี 440 Hz

การได้ยินคนเราโดยปกติเป็นไปตามกราฟนี้ครับ



จากกราฟเห็นกันจะแจ้งว่า การได้ยินของคนเราไม่ได้ขึ้นกับความดังค่อย (หรือกำลัง) เพียงประการเดียว แต่ยังขึ้นอยู่กับระดับความสูงต่ำ (หรือความถี่) ของเสียงอีกด้วย ตัวอย่างเช่น เสียงความถี่ 4 kHz พูดเบา ๆ เราก็ได้ยิน แต่ถ้าใช้เสียงความถี่ที่มากขึ้นสมมติ 10 kHz ถ้าพูดในระดับความดังเดียวกับตอนแรก เราก็จะไม่ได้ยิน

กราฟดังกล่าวเป็นค่าจากการทดลองโดยเฉลี่ย ซึ่งกระทำกันเมื่อ 65 ปีที่แล้วโดยคุณ Fletcher เพราะว่ามันเป็นค่าเฉลี่ย มันเลยไม่เป็นจริงสำหรับทุกคนไงครับ พวกหูทอง ก็คือพวกที่มีระดับการได้ยินที่กำลังงานต่ำได้ดีกว่ากราฟนั้น (นั่นส่วนหนึ่งล่ะ อีกส่วนคือความสามารถในการจำแนกความแตกต่างของเสียง ซึ่งเป็นส่วนของการฝึกฝน) แปลว่าถ้าเราวาดกราฟอีกเส้นสำหรับพวกหูทองเส้นกราฟมันควรจะวางอยู่ต่ำกว่ากราฟในรูปนี้

คำว่าหูทองนี้เริ่มมาโผล่เด่นชัดก็เมื่อเริ่มต้นยุคที่มีการบีบอัดข้อมูลกันครับ เพื่อความกระจ่างจะพาข้ามไปพูดเรื่อง "เอ็มพีสาม" กันสักหน่อย

อย่าบอกนะครับว่าคุณไม่รู้จัก MP3

มันระบาดไปทั่วโลกก็ด้วยความสามารถในการบีบอัดเพลงที่มีขนาดใหญ่ ให้มีขนาดเล็กลงได้ประมาณ 10 เท่าโดยที่ บางคนแทบไม่รู้สึกว่ามีอะไรแตกต่างจากต้นฉบับเลยสักนิดเดียว ก็แค่บางคนนะครับ พวกหูทองคงทำหน้ายี้แล้วบอกว่ารับไม่ได้เพราะสาระทางดนตรีมันถูกตัดทอนไปตั้งเยอะ เดี๋ยวเรามาดูกันว่าเยอะจริงไหม

พูดถึงสื่อดนตรีดิจิทัลปัจจุบัน คุณภาพที่เรา ๆ ท่าน ๆ ยอมรับกันได้ก็คงเป็นคุณภาพระดับแผ่น CD ความหมายของคำว่าคุณภาพระดับซีดีก็คือมีการจัดเก็บข้อมูลที่มีการสุ่มเก็บตัวอย่าง 44,000 ตัวอย่างในเวลา 1 วินาที แล้วแต่ละตัวอย่างก็แทนด้วยข้อมูลขนาด 16 บิต ขอยกตัวอย่างที่เข้าใจง่าย ๆ นะครับ สมมติว่าคุณที่รักซ้อมร้องไล่โน๊ตเพลงทีละขั้น "โด เร มี ฟา โซ ลา ที โด้" ติ๊ต่างว่าเปล่งเสียงทั้ง 8 พยางค์นี้ใช้เวลา 2 วินาทีโดยเว้นช่วงเท่า ๆ กัน หมายความว่าเสียงแต่ละตัวกินช่วงเวลาโดยประมาณก็ 0.25 วินาที ถ้ามีใครสักคนทำหน้าที่เปิด-ปิดเครื่องอัดเสียง ถ้าเขาเปิด-ปิดทุก ๆ ครึ่งวินาที เขาก็จะบันทึกเสียง "เร ฟา ลา โด้" หรือ "โด มี โซ ที" ได้กลุ่มใดกลุ่มหนึ่งถูกมั้ยครับ อันนี้แหละ เราเรียกว่าการสุ่มเก็บตัวอย่าง ในกรณีนี้เขาสุ่มเก็บ 2 ตัวในเวลา 1 วินาที พูดให้หรูหราว่าใช้ Sampling rate เท่ากับ 2 Hz จากนั้นคุณที่รักก็ใช้ตรรกะอุปนัยเอาเองก็แล้วกันว่าคุณภาพระดับซีดีที่เขาสุ่มเก็บตัวอย่างถึง 44 กิโลเฮิร์ซ หรือ 44,000 ตัวใน 1 วินาทีนั้น มันจะมากมายขนาดไหน

ลำดับต่อมา ทุก ๆ 1 ตัวอย่างเสียงที่เก็บมาได้ ก็แปลงให้เป็นข้อมูลดิจิทัล โดยการกำหนดให้ 1 ตัวอย่างนั้นแทนด้วยข้อมูลขนาด 16 บิต มีนัยยะสำคัญว่าระดับเสียงทั้งหมดที่แตกต่างกันสามารถมีได้ 216 ระดับ ก็โอเคนะ เพราะระดับที่ยิบย่อยกว่านี้เราแทบจะแยกไม่ออกถึงความแตกต่าง (อย่าลืมยกเว้นพวกหูทอง) สมมติว่าคุณที่รักมีซีดีเพลง Kol Nidrei ของ Bruch เวอร์ชั่นที่จ๊าคคลีน ดู เปร เล่นเชลโล่ ซึ่งมีความยาวประมาณ 12 นาที (สมมติว่า 1 ช่องบันทึกเสียง) คุณอยากรู้ว่าเพลงนี้เก็บอยู่ในแผ่นซีดีกินเนื้อที่ไปเท่าไร ก็สามารถคิดเลขได้ไม่ยากครับ

12 นาที = 12 x 60 = 720 วินาที
1 วินาทีเก็บตัวอย่างเสียงได้ 44,000 ตัวอย่าง
720 วินาที ก็ 720 x 44,000 = 31,680,000 ตัวอย่าง
1 ตัวอย่างแทนด้วยข้อมูล 16 บิต
31,680,000 ตัวอย่าง ก็ 31,680,000 x 16 = 506,880,000 บิต

ประมาณว่า 500 ล้านบิต (เม็กกะบิต) ก็แล้วกันนะครับ

มันใหญ่มากใช่มั้ยละครับ ถ้าจะส่งให้กันทางเน็ตสำหรับ ใครที่ต่อโมเด็ม 56 K อาจจะโหลดกันนาน คิดเล่น ๆ ตีว่ามันใช้เวลาโหลดแบบเร็วเว่อร์มาก ๆ 50 K ต่อวินาทีเลย ก็ต้องใช้เวลาโหลดประมาณ 10,000 วินาที หรือเกือบ 3 ชั่วโมง

ตรงนี้นี่แหละครับ MP3 ก็เข้ามากอบกู้สถานการณ์ ทำให้ดนตรีเถื่อนเกลื่อนเน็ต นับว่ามีคุณอนันต์ครับ จึงเกิดคำถามคือ ข้อมูลมากขนาดนั้นจะตัดมันทิ้งตั้ง 90 เปอร์เซ็นต์ของข้อมูลเพลงโดยที่เพลงไม่เพี้ยนได้ยังไงกัน จาก 500 ล้านบิต จับมันบีบจนเหลือ 50 ล้านบิต แปลว่าทิ้งไป 450 ล้านบิต มันจะยังฟังเป็นเพลงได้อยู่อีกเหรอ ไม่ทำให้อารมณ์เสียเหรอ?



คำตอบคือ หูของคนเราทำงานยังไงล่ะ? (น่าจะเป็นคำถามมากกว่าแฮะ) มันสามารถได้ยินข้อมูลทุกชิ้นใน 44,000 ชิ้นต่อ 1 วินาทีและสามารถประมวลผลข้อมูลครบถ้วนทุกอันรึเปล่า? ถ้า"ใช่ทุกอัน" ก็จบครับ ต้องทำใจและหาทางพัฒนาสื่อเก็บให้มีความจุมากโดยขนาดทางกาพภาพเล็ก ๆ กันต่อไป (หรืออาจจะเพิ่มความเร็วให้ตัวประมวลผลเพื่อประมวลผลข้อมูลชุดเดิมแต่ถูกจัดให้อยู่ในรูปอื่นที่เล็กลงแต่ซับซ้อนขึ้น รวมถึงเพิ่มความเร็วในการสื่อสาร) แต่ถ้า "ไม่ทุกอัน" เป็นคำตอบ เรายังมีหวัง คือ ศึกษาต่อไปว่า ข้อมูลอันไหนที่หูมันตีความข้อมูลไม่ได้ เราก็ทิ้งมันไปซะ อันไหนที่หูตีความได้ ก็เก็บมันเอาไว้

การศึกษาที่ว่านี้พูดใหม่ในอีกมุมหนึ่งก็คือการเขียนสมการคณิตศาสตร์ที่แทนฟังก์ชั่นการทำงานของหูนั่นแหละครับ แล้วเอากลุ่มสมการคณิตศาสตร์อันนั้นไปใช้เพื่อพิจารณาว่าข้อมูลไหนยังต้องเก็บไว้ ข้อมูลไหนทิ้งได้ โดยที่โมเดลดังกล่าวนี้ เรามีชื่อเรียกสุดเท่ว่า "Psychoacoustic Model" และการจะวัดว่าทิ้งได้หรือทิ้งไม่ได้ เขาก็ใช้ระดับที่เรียกว่า JND หรือ Just Noticeable Distortion แปลว่า ต่อให้คุณหูไม่ทองก็เถอะ คุณก็ยังคงบอกว่าระหว่างเพลงเอ็มพีสามกับเพลงจากแผ่นซีดีนั้นต่างกัน แต่ต่างกันตรงไหนคุณอาจจะบอกไม่ถูกก็ได้ครับ เพราะมันเป็นระดับที่คุณเพิ่งรู้ว่ามันต่างกันแค่นั้นเอง

.............................................


(ต่อเนื่องจากบทที่ 4)

ถ้าเราจะแปลงไฟล์เพลงจากแผ่น Audio CD ให้อยู่ในรูป MP3 สิ่งหนึ่งที่โปรแกรมแปลงโดยทั่วไปจะถามคือ Bit rate ซึ่งเจ้า Bit rate ตัวนี้จะเป็นตัวที่กำหนดคุณภาพของเพลงและขนาดของไฟล์ เช่นเพลงที่มีบิตเรตสูงจะเป็นเพลงที่มีคุณภาพเสียงดีกว่าเพลงที่มีบิตเรตต่ำ แต่ต้องแลกกับจุดด้อยคือไฟล์จะมีขนาดใหญ่ หน่วยของบิตเรต คือ บิตต่อวินาที (bit per sec, bps) หมายความว่าในการสร้างเสียงช่วงเวลา 1 วินาทีจะอาศัยข้อมูลกี่บิต ถ้ามีจำนวนบิตมาก ก็ย่อมสร้างเสียงที่มีคุณภาพสูง ใกล้เคียงกับเสียงต้นฉบับมากขึ้น

ถ้าเราอยากรู้ว่าแผ่น CD ทั่วไป (สำหรับ 1 ช่องสัญญาณ) มีบิตเรตเท่าไร ก็ทำได้โดยการหาผลคูณระหว่าง Sampling Rate กับ จำนวนบิตที่ใช้แทนข้อมูลตัวอย่าง 1 ชิ้น ในตอนที่แล้วผมประมาณว่ามีการสุ่มเก็บตัวอย่าง 44,000 ตัวอย่างในช่วงเวลา 1 วินาที โดยแต่ละตัวอย่างแทนด้วยข้อมูล 16 บิต ดังนั้นบิตเรตของเสียงคุณภาพแผ่น CD ก็จะประมาณเท่ากับ 44,000 x 16 = 704,000 bps

เอาล่ะครับ ลองเปิดดูบิตเรตเพลง MP3 ในเครื่องคอมพิวเตอร์ของคุณที่รักสิครับ บางเพลงอาจจะ 64, 128, 196 หรือ 256 kbps อาจจะมากกว่าหรือสูงกว่านี้ก็ได้ ซึ่งมันจะแปรตามกับคุณภาพเสียงของไฟล์เพลงนั้น ๆ จะเห็นว่าจากเลขหลักเจ็ดแสนลดลงเหลือเลขหลักหมื่นหรือแสนต้น ๆ เท่านั้นเอง พระเอกในเรื่องนี้คือ Psychoacoustic Model ที่ได้เกริ่นถึงในตอนท้ายของบทที่แล้ว Psychoacoustic model คือโมเดลคณิตศาสตร์ที่แทนการประมวลผลการรับรู้ของมนุษย์ผ่านทางหูที่อิงอยู่กับ psychoacoustic principles การเข้าใจ psychoacoustic principles เราต้องเริ่มจากเข้าใจการทำงานของหูก่อนครับ

จากรูปหู (รูปในตอนที่แล้ว) หูแบ่งเป็น 3 ชั้นเหมือนที่เราเรียนตอนประถม ชั้นนอกทำหน้าที่รวบรวมเสียงและเป็นช่องให้เสียงไปถึงหูชั้นกลาง ส่วนหูชั้นกลางก็แปลงเสียงให้เป็นการสั่นสะเทือนของโครงสร้างกระดูกและส่งต่อคลื่นสั่นสะเทือนให้กับหูชั้นใน ซึ่งจะแปลงพลังงานของคลื่นสั่นสะเทือนนี้ให้ไปกระตุ้นระบบประสาทและส่งข้อมูลต่อไปยังสมอง



ภาพนี้เป็นภาพหูชั้นใน ท่อที่ขดเป็นวงเกือบ 3 รอบ มีความยาวประมาณ 3.5 เซ็นติเมตรในส่วนของหูชั้นในนั้นเราเรียกว่าคอเคลีย (Cochlea) ในคอเคลียเองก็ถูกแบ่งตามแนวยาวโดยบาซิลาเม็มเบรน (Basilar membrane) เกิดเป็นท่อสำหรับของไหล 2 ท่อ ซึ่งคลื่นความสั่นสะเทือนของของไหลจะกระตุ้นคอเคลียร์ฟิลเตอร์ (Cochlear filter) ที่ติดอยู่กับบาซิลาเม็มเบรน โดยมีการตอบสนองต่อความถี่ที่แตกต่างกันด้วยตำแหน่งที่แตกต่างกันบนบาซิลา กรณีนี้พูดได้ว่าคอเคลียทำตัวเสมือนเป็น filter bank หลาย ๆ อันที่มีช่วงซ้อนทับกันเพื่อกรองความถี่ผ่านแบบ band pass filter กระจายอยู่ตามตำแหน่งต่าง ๆ บนแผ่นบาซิลา การทำงานของมันจึงเรียกว่าเป็น frequency to place transform (ความถี่เสียงที่ต่างกัน จะกระตุ้นระบบประสาทต่างตำแหน่งกัน) ลองดูรูปนะครับ





จากรูปแสดงให้เห็นว่าบริเวณที่ตอบสนองต่อความถี่สูงจะอยู่ใกล้กับหน้าต่างวงรี (Oval Window) มากกว่าบริเวณที่ตอบสนองต่อความถี่ต่ำ เมื่อมองว่าแผ่นบาซิลานั้นทำตัวเหมือน Band Pass Filter (ตัวกรองความถี่ให้ย่านที่ต้องการเท่านั้นสามารถผ่านไปได้) หลาย ๆ ตัว (Bank) ที่มีย่านความถี่เหลื่อมล้ำกัน (Overlapping) เราจะสมมติเรียกแต่ละย่านของ Band Pass Filter ว่าเป็น Critical Band สำหรับการได้ยินโดยปกติของหูคนทั่วไปพบว่าแผ่นบาซิลาจะมีทั้งสิ้น 25 Critical Bands โดยประมาณครับ

คุณสมบัติที่น่าทึ่งประการหนึ่ง เมื่อฟังก์ชั่นการทำงานของหูประมวลผลสัญญาณเสียงโดยแบ่งเป็น Critical Band คือ บางกรณีสามารถกำจัดสัญญาณรบกวนของเสียงที่อยู่ใน Critical Band นั้นออกไปได้โดยไม่กระทบต่อ Band อื่น ๆ จากคุณสมบัติของ Critical Band (ซึ่งสรุปจากการทดลอง) พบว่าหูจะได้ยินเสียงสัญญาณรบกวนย่านความถี่แคบ (Narrow-band Noise) คงที่ ไม่ว่าย่านความถี่ของสัญญาณรบกวนนั้นมากน้อยเท่าไร หากยังอยู่ในขอบเขตของ Critical Band แต่ถ้าความกว้างของสัญญาณรบกวนกว้างกว่า Critical Bandwidth ความสามารถการได้ยินสัญญาณรบกวนนั้นของคนเราจะเพิ่มมากขึ้น

คุณสมบัตินี้เป็นคุณสมบัติหนึ่งที่ช่วยให้เราตัดข้อมูลที่คาดว่าหูจะไม่ได้ยินทิ้งไปได้ และคุณสมบัติที่สำคัญอีก 2 ประการที่ช่วยในการกำจัดข้อมูลทิ้งได้เป็นปริมาณมากคือ

1. ขีดเริ่มการได้ยิน (Absolute Threshold of Hearing)

จากตอนต้น (รูปแรกในตอนที่แล้ว) การได้ยินของคนเรา นอกจากจะขึ้นกับระดับพลังงาน หรือความดังของเสียง ยังขึ้นกับความถี่ด้วย ที่ความดังเท่ากัน (คือมีพลังงานเท่ากัน) แต่ความถี่แตกต่างกัน ก็เป็นไปได้ที่จะได้ยินเสียงหนึ่งแต่ไม่ได้ยินอีกเสียงหนึ่ง รูปที่เห็นนี้เป็นตัวอย่างแสดงสัญญาณ 2 สัญญาณที่คนเรารับรู้ ในขณะที่สัญญาณแรกซึ่งมีความดังเท่ากับสัญญาณที่ 3 กลับเป็นสัญญาณที่หูคนเราไม่สามารถได้ยิน เพราะมีความถี่ต่ำกว่า นั่นคือ ในสภาพแวดล้อมที่เงียบสงบ หูจะได้เริ่มจับสัญญาณได้เมื่อระดับความดังของสัญญาณสูงกว่าขีดเริ่มการได้ยิน



ดังนั้นการลดทอนปริมาณข้อมูลเสียง อันดับแรกเราต้องแปลงข้อมูลที่อยู่ในรูป time-domain ไปเป็น frequency-domain จากนั้นกำจัดข้อมูลที่มีค่าต่ำกว่าขีดเริ่มการได้ยินทิ้งไป

2. การบดบังของสัญญาณ (Masking)

ธรรมชาติของหูเมื่อประมาณผลสัญญาณเสียง (ใน frequency-domain) คือ เสียงที่ดังกว่า จะข่มทับเสียงที่เบากว่า พูดอีกนัยหนึ่งว่า เมื่อมีโทนเสียงความถี่ใดความถี่หนึ่งดังขึ้นมา โทนเสียงนั้นจะยกระดับขีดเริ่มการได้ยินให้สูงขึ้น หรือ การได้ยินเสียงที่ความถี่ใกล้เคียงกัน (โดยเฉพาะอยู่ใน Critical Band เดียวกัน) แต่มีพลังงานน้อยกว่า (เสียงเบากว่า) เป็นไปได้ยากขึ้น หรือไม่ได้ยินเลย



จากรูปนี้ เราจึงสามารถกำจัดข้อมูลเสียงตัวที่ 2 และ 4 ทิ้งไปได้ เพราะการยกระดับขีดเริ่มการได้ยินเนื่องจากโทนสัญญาณเสียงที่ 3 พูดว่าสัญญาณเสียงที่ 3 บดบังโทนสัญญาณเสียงที่ 2 และ 4 ก็ไม่ผิด หลักความจริงข้อนี้สามารถช่วยให้เรากำจัดทิ้งข้อมูลได้เป็นปริมาณมาก



การบดบังอีกลักษณะหนึ่งคือการบดบังสัญญาณเสียงใน time-domain กล่าวคือ เสียงที่ดังในช่วงใดช่วงหนึ่ง จะทำให้การได้ยินเสียงที่ควรจะได้ยินก่อนหน้าและหลังจากนั้นสูญเสียไปช่วงเวลาหนึ่ง จากรูป ขีดเริ่มการได้ยินจะถูกยกขึ้นเล็กน้อย ในช่วงเวลาสั้น ๆ ทั้งก่อนหน้าและหลักโทนเสียงที่ดัง ดังนั้นข้อมูลใดก็ตามที่บังเอิญอยู่ในช่วงเวลาที่ใกล้เคียงกันหากระดับพลังงานต่ำกว่าระดับที่ถูกยกขึ้นย่อมถูกกำจัดไปด้วย สามารถสรุปผลการบดบังสัญญาณได้ดังนี้



ที่ยกอธิบายคร่าว ๆ มาทั้งหมดนี้คือการใช้ Psychoacoustic principles ในการบีบอัดสัญญาณเสียง เทคนิคการบีบอัดสัญญาณเสียงโดยใช้หลักการนี้เรามีชื่อเรียกว่า perceptual coding อันที่จริงการบีบอัดทั้งหลาย ไม่ว่าจะเป็น MPEG1 Layer 3 (MP3) หรือ Layer 1-2 หรือ OGG หรือ AAC หรือ Wavelet ต่างก็ใช้หลักการเดียวกันนี่แหละครับ ต่างกันที่เทคนิค




 

Create Date : 25 พฤศจิกายน 2551    
Last Update : 13 พฤศจิกายน 2552 10:16:28 น.
Counter : 1647 Pageviews.  

ปัญหาภาษา Mansi

ผมเจอโจทย์ที่น่าสนใจมากทั้งในเชิงภาษาศาสตร์และคณิตศาสตร์ข้อหนึ่ง โจทย์เขาว่าแบบนี้ครับ Mansi เป็นภาษาของชนท้องถิ่นไซบีเรียน มีคนใช้ภาษานี้ประมาณ 3000 คน ต่อไปนี้เป็นการเรียกตัวเลขบางค่า

8: nollow
15: atxujplow
49: atlow nopel ontellow
50: atlow
99: ontelsat ontellow
555: xotsatn xotlow nopel at
900: ontellowsat
918: ontellowsat nollowxujplow.

คำถาม
1. ความหมายของ atsatn at, nolsat nopel xot, ontellowsatn ontellowxujplow คืออะไร?
2. จะพูดเลข 58, 80, 716 ด้วยภาษานี้ได้ยังไง?



ผมนำโจทย์ข้อนี้ไปตั้งกระทู้ถามเพื่อน ๆ ร่วมกันเล่นสนุกในห้องหว้ากอ pantip.com แต่ละท่านที่มาตอบมีแนววิเคราะห์ผิดแผกกันไป น่าสนใจทั้งนั้นครับ (คุณคนใดสนใจก็ลองในหว้ากอกลุ่มย่อยคณิตศาสตร์) ผมจะลองวิเคราะห์ในแนวของผมเพื่อตอบคำถามทั้ง 2 ข้อ (ซึ่งตรวจสอบคำตอบแล้วว่าตอบถูก แต่แนววิเคราะห์จะผิดหรือถูกนั้นไม่ประกันนะครับ) ถือว่าแสดงทัศนะกันไป ผมเริ่มต้นด้วยวิธีที่พื้นฐานที่สุด คือเชื่อว่าภาษานี้ใช้เลขฐาน 10 ดังนั้นเลขโดด 0-9 ไม่ว่ามันจะมีที่มาที่ไปยังไง มันต้องไม่ผัน และอาจจะใช้เลขโดดเป็นรากให้กับเลขอื่น ๆ ที่มีค่ามากขึ้น ทำให้ผมเชื่ออย่างค่อนข้างมั่นใจว่า

nollow = 8 (แหงล่ะ)

ontellow = 9 จาก ontellow ใน 49, 99 และ ontellowsat ใน 900

at = 5 จาก atxujplow ใน 15, atlow ใน 50, at ใน 555 แม้ว่า 500 + 50 จะไม่เจอ at แต่เดี๋ยวเราคงพบคำอธิบายว่าทำไม

สมมติฐานต่อมาคือตัวเลขที่เกินเลขโดดมันจะต้องมี suffix หรือ prefix ประกอบกับเลขโดด ที่เห็นในภาษานี้เป็น suffix ดังนั้น

-xujplow น่าจะหมายถึง +10 เหมือนกับคำว่า -teen ในภาษาอังกฤษ หลักฐานรองรับคือ 15 กับ 18 ใน 918 ถ้ามีใครถามว่า 19 คืออะไร ผมตอบอย่างมั่นใจว่า ontellowxujplow ครับ

-low เท่ากับ x10 ถ้าตัวที่อยู่ประกอบกับ -low เป็นเลขโดด เช่น atlow, xotlow แต่ไม่ยืนยันไปถึง nollow (เพราะ nol ใช่เลขโดดหรือไม่เรายังไม่รู้) และ ontellow (เรายังไม่รู้จัก ontel) ตรงนี้ทำให้เดาเพิ่มได้ว่า xot ต้องเป็นเลขโดด แต่มันคือเลขอะไรล่ะ? ต้องหาคำอธิบายต่อไป

-sat เท่ากับ x100 ถ้าตัวที่ประกอบกับ -sat เป็นเลขโดด เช่น ontellowsat (อันนี้ชัดเจน), xotsatn อันนี้เป็นไปได้สูงหากเรารู้เหตุผลของ n ที่ต่อท้าย sat แต่ ontelsat ไม่ตรงกับหลักข้อนี้เพราะ ontel เป็นเลขโดดหรือเปล่าเรายังไม่รู้ถูกมั้ยครับ ดังนั้นสรุปได้อย่างเดียวว่า ontelsat = 90 และเนื่องจากความสอดคล้องกันของ 8 กับ 9 ที่มี low ลงท้าย ทำให้คาดเดาว่าสามารถนำ stem ของมันมาผสมกับ sat แล้วเป็นตัวเลขหลัก 10 ได้เหมือนกับ ontelsat ตรงนี้ทำให้ผมตอบตัวเลข 80 ในคำถามที่ 2 ได้โดยความสอดคล้องว่ามันคือ nolsat (80)

จาก 49 = atlow nopel ontellow และเรารู้ว่า atlow = 50, ontellow = 9 คำอธิบายแบบตรงไปตรงมาเพียงอย่างเดียวคือ nopel = -10 และสังเกตว่าตัว n ปริศนาที่ต่อท้าย sat ใน satn เป็น n คล้าย ๆ กับ nopel จึงเกิดคำถามว่าเป็นไปได้มั้ยที่ทั้งสองตัวนี้ทำหน้าที่อย่างเดียวกันคือเป็นตัวหักลบ เมื่อพิจารณา xotlow nopel at = 55 ทำให้เดาว่า xot = 6 ทุกอย่างก็ลงตัวที่ n = -100

เราสร้างกฎเพื่ออธิบายโจทย์ได้แล้วทีนี้

1. at = 5
2. xot = 6
3. nollow = 8
4. ontellow = 9

5. เลขโดดที่ลงท้ายด้วย low สามารถทำเป็นตัวเลขที่ x10 ได้โดยการนำ stem+sat
ontelsat = 90
nolsat = 80

6. เลขโดด + xujplow = +10
7. เลขโดด + low = x10
8. เลขโดด + sat = x100

9. nopel = -10
10. suffix + n = -100 (ทำนายต่อไปว่าอาจจะ -1000, -10000 ... อีกก็ได้ขึ้นอยู่กับ suffix)

ตัวอย่าง
555 = 600-100 + 50-10 + 5 = xotsatn xotlow nopel at
918 = 900 + 18 = ontellowsat nollowxujplow.

ตอบคำถาม
atsatn at = 500-100 + 5 = 405
nolsat nopel xot = 80-10 + 6 = 76
ontellowsatn ontellowxujplow = 900-100 + 19 = 819
58 = 60-10 + 8 = xotlow nopel nollow
80 = nosat
716 = 800-100 + 16 = nollowsatn xotxujplow





 

Create Date : 10 พฤศจิกายน 2551    
Last Update : 10 พฤศจิกายน 2551 19:40:47 น.
Counter : 901 Pageviews.  

ความสมมาตรที่พังทลาย



คลิกที่นี่เพื่อเปิดอ่านไฟล์ pdf




 

Create Date : 10 ตุลาคม 2551    
Last Update : 4 สิงหาคม 2554 22:18:47 น.
Counter : 1046 Pageviews.  

การตีโจทย์ปัญหาควีน N ตัว

คลิกที่นี่เพื่อเปิดอ่านไฟล์ pdf




 

Create Date : 09 ตุลาคม 2551    
Last Update : 4 สิงหาคม 2554 22:29:16 น.
Counter : 1027 Pageviews.  

1  2  3  4  5  6  7  8  9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  
 Pantip.com | PantipMarket.com | Pantown.com | © 2004 BlogGang.com allrights reserved.