creatio ex nihilo

ศล
Location :
กรุงเทพ Thailand

[Profile ทั้งหมด]

ฝากข้อความหลังไมค์
Rss Feed
Smember
ผู้ติดตามบล็อก : 85 คน [?]




Group Blog
 
All Blogs
 
Friends' blogs
[Add ศล's blog to your web]
Links
 

 

เกร็ดความรู้เกี่ยวกับหูชั้นกลาง

ตอนนี้อยากพูดสั้น ๆ เกี่ยวกับหูชั้นกลาง เจ้ากระดูก 3 ชิ้นกับห้องว่าง ๆ เต็มไปด้วยอากาศ กระดูกเล็ก ๆ 3 ชิ้นเราเรียกรวมกันว่า ossicles คงจำชื่อได้ตั้งแต่เด็กว่ากระดูกค้อน ทั่ง โกลน เพราะเราถูกสอนกันมาว่ามันมีรูปร่างเหมือนค้อน ทั่ง โกลน ชื่อกระดูกเหล่านี้ในภาษาอังกฤษคือ malleus incus stapes อันนี้สารภาพเลยว่าตอนเด็กรู้จักแต่ค้อน แถมค้อนดูยังไงก็ไม่เหมือนค้อน ทั่งกับโกลนนี่คืออะไรไม่รู้เลย แต่คำว่าค้อนทั่งโกลนก็จำได้มาแต่ครั้งกระโน้น


หูชั้นกลางเริ่มต้นที่ eardrum ซึ่งยึดติดกับกระดูกสามชิ้นนั้น eardrum สร้างจาก circular กับ radial fibers และมีกลามเนื้อเทนเซอร์ ทิมพานี (tensor tympani muscle) คอยทำให้มันตึง หน้าที่ของ eardrum คือ เปลี่ยนการผันผวนของความดันของคลื่นเสียงให้เป็นการสั่นเชิงกลแล้วส่งต่อไปยังหูชั้นในผ่าน ossicles


หน้าที่ของ ossicles จะว่าไปก็คล้ายกับหน้าที่ของคาน มันแปลงความดันน้อย ๆ ของคลื่นเสียงที่ปรากฏบน eardrum ให้กลายเป็นความดันที่มากกว่าอย่างมาก (ประมาณ 30 เท่า) บนหน้าต่างวงรีของหูชั้นใน วิศวกรอาจเรียกสิ่งที่ทำหน้าที่ดังกล่าวว่าเป็นตัวแปลงเชิงกล (mechanical transformer) ดังรูปด้านล่าง ซึ่งเฉพาะโครงสร้างของคาน ossicles อาจช่วยเพิ่มแรงที่อีกด้านหนึ่งประมาณ 1.5 เท่า (F2 = 1.5F1 เพราะ หลักการของคานคือ แรงน้อย ๆ แต่กระทำห่าง ๆ จะให้ผลลัพธ์เท่ากับแรงมาก ๆ กระทำใกล้ ๆ) ขณะที่ตัวคูณอีก 20 เท่าในเชิงความดันมาจากพื้นที่ที่แตกต่างกันมากระหว่าง eardrum กับ หน้าต่างวงรี (เพราะ P = F/A) P2 = (1.5)(20)P1 = 30P1


หน้าที่อีกประการของกระดูกเล็ก ๆ เหล่านี้ คือ ปกป้องหูชั้นในจากเสียงรบกวนที่ดังมากและการเปลี่ยนแปลงความดันแบบฉับพลัน เสียงรบกวนที่ดังจะทำให้กล้ามเนื้อ 2 ชุดทำงาน ชุดแรกจะทำให้ eardrum ตึงขึ้น แน่นขึ้น อีกชุดจะดึงกระดูกโกลนให้ออกจากหน้าต่างวงรีของหูชั้นใน การตอบสนองต่อเสียงดังนี้เรียกว่า acoustic reflex

ทีนี้ เนื่องจาก eardrum มันทำตัวเหมือนผนึกอากาศระหว่างหูชั้นกลางกับอากาศภายนอก ฉะนั้น จำเป็นต้องมีวิธีที่จะปรับความดันระหว่างหูชั้นกลางกับชั้นนอกให้เท่ากัน (ลองตอบคำถามว่า ทำไม? เองนะ) ธรรมชาติจึงสร้างท่อยูสเตเชียน (ดูรูปที่ 2) ซึ่งเชื่อมระหว่างหูชั้นกลางกับหลังโพรงจมูกมาเพื่องานนี้ เมื่อความดันภายนอกเปลี่ยน เช่น ตอนที่เราเคลื่อนที่เปลี่ยนระดับความสูงรวดเร็วสักหน่อย หากท่อยูสเตเชียนเปิดช้า เราก็อาจได้ยินเสียงป๊อปในหู หรือหูอื้อ

ทั้งหมดที่กล่าวถึงการทำงานของหูชั้นกลาง ออฟฟิศของมันมีขนาดประมาณแค่ก้อนน้ำตาลเองครับ

(หมายเหตุ เนื้อหาเรียบเรียงจากบางส่วนของ 5.2 Structure of the Ear, The Science of Sound 3rd Ed, โดย Rossing, Moore, กับ Wheeler)




 

Create Date : 29 เมษายน 2556    
Last Update : 1 พฤษภาคม 2556 23:54:12 น.
Counter : 4914 Pageviews.  

Production, Propagation, and Processing of Sound (สรุป)

เนื้อหาตอนนี้เรียงลำดับตามสรุปในหัวข้อ 3.5 Summary และขยายความตามเนื้อหาในหัวข้อก่อนหน้าจากบทที่ 3 Production, Propagation, and Processing หนังสือ The Sense of HEARING ของ Christopher J. Plack ความเดิมตอนที่แล้ว ดู The Nature of Sound (สรุป)

1. แหล่งกำเนิดเสียง คือ วัตถุหรือเหตุการณ์ที่สร้างความผันผวนของความดัน วัตถุจำนวนมากมีความถี่เรโซแนนต์ตามธรรมชาติ และเมื่อถูกกระแทก (หรือ ถูกตี ถูกดีด ถูกเคาะ) จะให้กำเนิดคลื่นเสียงที่ความถี่นั้น มวลและความแข็งฝืด (stiffness) ของสสาร เป็นตัวกำหนดความถี่ของการสั่น แหล่งกำเนิดเสียงบางอย่างจะสั่นมากและมีเสียงกังวาลหลังจากถูกเคาะ แต่แหล่งกำเนิดเสียงบางอย่างก็สั่นแป๊ปเดียว เสียงทึบ

ระลึกว่า การผันผวนของความดันนั้นไม่ได้จู่ ๆ ก็เกิดขึ้นมาเอง ต้องมีแหล่งพลังงาน เช่น เราเคาะประตู พลังงานจากการปะทะนั้นจะเปลี่ยนไปเป็นความร้อนเสียส่วนใหญ่ และส่วนหนึ่งทำให้เกิดเสียง

วัตถุรอบตัวในชีวิตประจำวันจะมีความถี่ธรรมชาติของการสั่น เรียกว่า ความถี่เรโซแนนต์ คำถาม อะไรทำให้เกิดการสั่น คำตอบ ตอนที่สสารซึ่งมีความยืดหยุ่นเสียรูป (เช่น เราใช้นิ้วดีดแก้วหนึ่งที แก้วเป็นสสารที่มีความยืดหยุ่น และตรงจุดที่แก้วกระทบกับนิ้วที่เราดีดมีการเสียรูป) บางส่วนของสสารถูกยืดออกหรือบางส่วนถูกบีบอัด ดังนั้นจึงเกิดแรงที่จะทำให้สสารดังกล่าวกลับคืนสู่รูปเดิม (อาจนึกถึงสปริงบอร์ดสระว่ายน้ำ พอมีคนกระโดดจากบอร์ด บอร์ดจะดึงตัวมันเองกลับมารูปเดิม ตำแหน่งเดิม) ตอนที่มันพยายามทำให้กลับมารูปเดิม มัน overshoot ทำให้เกิดการเสียรูปไปในทิศทางตรงกันข้ามกับตอนแรก จึงทำให้เกิดการสั่น (นึกถึงสปริงบอร์ดสระว่ายน้ำที่สั่นขึ้นลงสักพักก่อนจะหยุดนิ่ง) จนกว่าจะหยุดนิ่งที่รูปเดิม ตำแหน่งเดิม ความถี่ของการสั่นดังกล่าวนี่แหละครับ ถูกกำหนดโดยมวลและความแข็งทื่อของสสาร โมเดลของการสั่น เราใช้มวลยึดติดกับสปริง ดังรูปด้านล่าง อัตราการสั่นแปรผกผันกับค่ารากที่สองของมวล และแปรผันตามค่ารากที่สองของความแข็งทื่อของสปริง นั่นคือ ถ้ามวลลดลง 4 เท่า ความถี่ของการสั่นจะเพิ่มขึ้น 2 เท่า


การสั่นดังกล่าวไม่อาจไม่สิ้นสุด แก้วไวน์ที่จับแบบหลวม ๆ ตรงก้านแก้วจะให้เสียงกังวาลไปสักพักหลังจากที่ถูกเคาะ ส่วนแก้วไวน์ที่จับขอบแก้วแน่น ๆ จะให้เสียงทึบ ๆ สั้น ๆ ความแตกต่างนี้เป็นผลจาก damping ถ้าการเคลื่อนที่แบบสั่นในสภาพแรงเสียดทานค่อนข้างน้อย มันจะสั่นต่อไปสักระยะก่อนจะสูญเสียพลังงานในรูปความร้อนให้แก่สสาร แต่หากการต้านทานการเคลื่อนที่มีค่ามาก มันจะสั่นครู่เดียวและพลังงานทั้งหมดจะกลายเป็นความร้อนไปอย่างรวดเร็ว รูปด้านล่างแสดงเสียงกรณีจับก้านแก้วไวน์ กับใช้นิ้วจับขอบแก้วไวน์ (highly damped)


2. สมบัติเรโซแนนต์ของวัตถุอาจค่อนข้างซับซ้อน สมบัติดังกล่าวไม่เพียงจะบอกถึงเสียงลักษณะเฉพาะ (characteristic sound) ของวัตถุตอนที่ถูกเคาะ แต่ยังบ่งบอกถึงรูปแบบที่วัตถุนั้นตอบสนองต่อความถี่กระตุ้นที่แตกต่างกัน วัตถุจะสั่นมาก รุนแรง ในกรณีที่ตอบสนองต่อการกระตุ้นที่ความถี่เรโซแนนต์ของมัน


นอกจากจะตอบสนองต่อการถูกกระตุ้น (เช่น เคาะ) โดยตรงแล้ว วัตถุยังตอบสนองต่อการสั่นของสสารที่มันสัมผัส (เช่น อากาศ) ด้วย ถ้าวัตถุนั้นได้รับการกระตุ้นจากแหล่งกำเนิดที่สั่นด้วยความถี่เรโซแนนต์ของมันเอง มันจะสั่นรุนแรง เช่น รุนแรงขนาดที่ทำให้แก้วแตกได้ในกรณีของนักร้องโอเปร่า หากพวกเธอสร้างเสียงความเข้มสูงที่ความถี่เรโซแนนต์ของแก้ว เปรียบเทียบได้กับการแกว่งชิงช้า ถ้าเราผลักด้วยความถี่เดียวกับความถี่ที่ชิงช้ากำลังแกว่ง ชิงช้าก็จะยิ่งแกว่งสูงขึ้่น ๆ หรือถ้าเราถือสปริงผูกติดมวลด้วยมือข้างหนึ่ง ปล่อยทิ้งลงมาแนวดิ่ง แล้วโยกมือขึ้นลง มวลที่ติดสปริงก็จะสั่นขึ้นลง และถ้าความถี่ในการโยกมือขึ้นลงของเราเท่ากับความถี่เรโซแนนต์ของระบบมวลติดสปริง มันก็จะสั่นมาก แต่ถ้าเราโยกมือขึ้นลงเร็วกว่าหรือช้ากว่าความถี่เรโซแนนต์ของระบบ มวลก็จะสั่นน้อยลง โดยทั่วไป วัตถุที่ damped (เช่น แก้วไวน์จับขอบแน่น ๆ) จะถูกจูนให้ตรงกับรูปแบบความถี่เรโซแนนต์ยากกว่า (นักร้องโอเปร่าทำให้แก้วที่ถูกจับขอบแตกยากกว่าแก้วที่ถูกจับก้าน)

3. นอกจากนี้ เรโซแนนต์ยังสามารถเกิดขึ้นในปริมาตรปิดของอากาศ อันเนื่องจากการสะท้อนภายในที่ว่างนั้น การกระตุ้นที่ความถี่เรโซแนนต์จะทำให้เกิดคลื่นนิ่ง (standing wave) ทำให้เกิดตำแหน่งที่มีการเปลี่ยนแปลงความดันต่ำสุด (node) และตำแหน่งที่มีการเปลี่ยนแปลงความดันสูงสุด (antinode)

ตอนที่คลื่นเสียงถูกสร้างขึ้นในปริมาตรปิด เช่นในท่อปิดทั้งสองข้าง บริเวณที่อากาศหนาแน่นและเบาบางในท่อจะสะท้อนกลับไปกลับมา ในกรณีของท่อนั้น ความถี่มูลฐานของการเคลื่อนที่กลับไปกลับมาถูกกำหนดโดยความยาวของท่อ เพราะเวลาที่การเปลี่ยนแปลงความดันใช้ในการเคลื่อนที่จากปลายข้างหนึ่งไปยังอีกข้างหนึ่ง (ด้วยอัตราเร็วเสียง) ขึ้นอยู่กับความยาวท่อ ถ้าความยาวคลื่นเสียงนั้นพอดีทำให้คลื่นเสียงที่สะท้อนมีเฟสตรงกับคลื่นเสียงตกกระทบ (in phase) คลื่นเสียงทั้งสองจะรวมกันสร้างการตอบสนองที่มากขึ้น สำหรับท่อปิด เหตุการณ์ดังกล่าวเกิดเมื่อความยาวคลื่นของเสียงมีค่าเป็นสองเท่าของความยาวท่อ แต่ถ้าปลายด้านหนึ่งของท่อเปิด (เช่น ขวด) เสียงที่ไปถึงปลายเปิดจะเจอกับการกลับเฟส (phase reversal) พูดอีกอย่างหนึ่งว่า ความหนาแน่นจะสะท้อนกลับมาเป็นความเบาบาง ดังนั้น สำหรับท่อปลายเปิดหนึ่งข้าง ความยาวคลื่นมูลฐานจะเป็นสี่เท่าของความยาวท่อ

การรวมกันของคลื่นเสียงที่ความถี่เรโซแนนต์ซึ่งเคลื่อนที่ในทิศทางตรงกันข้ามเมื่อพวกมันสะท้อนระหว่างขอบทั้งสองข้างจะทำให้เกิดคลื่นนิ่งดังรูป


บริเวณระหว่างขอบทั้งสองจะมีตำแหน่งที่ความดันไม่เปลี่ยนแปลง เรียกว่า node ส่วนตำแหน่งที่การเปลี่ยนแปลงของความดันมีค่ามากที่สุด เรียกว่า antinode นอกจากที่ความถี่มูลฐานแล้ว อากาศในท่อยังเรโซเนต (เกิดเสียงดังก้อง) ที่ความถี่ซึ่งสัมพันธ์แบบฮาร์มอนิกส์กับความถี่มูลฐาน นั่นคือ ในกรณีท่อปิดทั้งสองข้าง คลื่นนิ่งยังคงเกิดขึ้นตราบเท่าที่ความยาวของท่อยังเป็นจำนวนเต็มเท่าของครึ่งของความยาวคลื่นเสียง (ดูรูป b ข้างบน) สำหรับกรณีท่อเปิดหนึ่งข้าง การกลับเฟสที่ปลายเปิดจะทำให้เกิดเฉพาะฮาร์มอนิกส์เลขคี่ ดังรูป


4. ระบบกำเนิดเสียงของคนและเสียงเครื่องดนตรีประกอบด้วยแหล่งกำเนิดที่กำลังสั่นซึ่งจะสร้างโทนหลาย ๆ โทนที่ซับซ้อน สเปกตรัมของโทนถูกดัดแปลงโดยโครงสร้างเรโซแนนต์ในทางเดินเสียงและในโครงสร้างของเครื่องดนตรีตามลำดับ



เราสร้างเสียงพูดด้วยการบีบอากาศในปอดให้ผ่านเส้นเสียง (vocal folds) ทำให้มันสั่น จากนั้นเสียงจะถูกดัดแปลงตอนที่มันเดินทางผ่านท่อในลำคอและปาก ท่อทางเดินเสียง (vocal tract) นี้ก็ทำตัวเปรียบได้กับท่อปลายเปิดหนึ่งด้านดังที่ได้กล่าวถึงไปแล้ว ปลายเปิดกรณีนี้อยู่ระหว่างริมฝีปาก

5. คลื่นเสียงเดินทางแพร่กระจายในอากาศทั้งสามมิติ โดยความเข้มเสียงแปรผกผันกับระยะห่างจากแหล่งกำเนิดเสียงยกกำลังสอง (inverse square law) หมายความว่า ระดับเสียงลดลง 6 dB สำหรับทุก ๆ ระยะห่างที่เพิ่มขึ้นสองเท่าจากแหล่งกำเนิดเสียง (เพราะ -10 log10 4 ≈ -6)

6. (6.1) เมื่อคลื่นเสียงเดินทางมาเจอกับวัตถุ มันอาจสะท้อนกลับจากวัตถุ อาจส่งผ่านทางวัตถุ (เดินทางต่อวัตถุ) อาจเลี้ยวเบนรอบวัตถุ หรือถูกดูดกลืนโดยวัตถุ, (6.2) ยิ่งอิมพิแดนซ์ (impedance) ของวัตถุและของอากาศไม่เข้ากันมากเท่าไร พลังงานเสียงจะสะท้อนกลับมากเท่านั้น, (6.3) ผลรวมของการสะท้อนที่ซับซ้อนในพื้นที่ปิดเรียกว่า reverberation, (6.4) องค์ประกอบความถี่ต่ำจะเลี้ยวเบนรอบวัตถุมากกว่า และมักจะถูกดูดกลืนโดยวัตถุยากกว่า

เสียงจะสะท้อนเมื่อตัวกลางนำพาคลื่นเสียงมีอิมพีแดนซ์แตกต่างจากตัวกลางที่มันเผชิญหน้า อิมพิแดนซ์คือสิ่งที่บอกเราว่าตัวกลางนั้น ๆ ต่อต้านการเดินทางของคลื่นเสียงมากน้อยแค่ไหน สสารที่แข็งทื่อและหนาแน่นจะมีอิมพิแดนซ์สูง ยิ่งความแตกต่างระหว่างอิมพีแดนซ์ของสองตัวกลางมีค่ามาก พลังงานเสียงก็จะยิ่งสะท้อนกลับมาก เช่น เสียงเดินทางในอากาศ (ตัวกลางที่มีอิมพีแดนซ์ต่ำ) ไปกระทบกำแพง (ตัวกลางที่มีอิมพิแดนซ์สูง) พลังงานส่วนใหญ่ของคลื่นเสียงจะสะท้อนกลับ ดังรูป (คลื่นเสียงที่สะท้อนออกจากผนัง เราอาจมองประหนึ่งว่ามันเดินทางจาก sound image ซึ่งอยู่ด้านหลังผนังที่ระยะห่างเดียวกับแหล่งกำเนิดเสียง)


รูปด้านล่างแสดงตัวอย่างผลรวมคลื่นเสียงที่สะท้อนในพื้นที่ปิด ความจริงซับซ้อนกว่าในรูป เพราะ นอกจากจะมีหลายเส้นทางจากแหล่งกำเนิดมาถึงหูแล้ว เสียงที่เราได้ยินก็อาจมาจากการสะท้อนที่มากกว่าการสะท้อนครั้งแรก ผลรวมของเสียงสะท้อนที่ซับซ้อนนี้เรียกว่า reverberation


พลังงานบางส่วนที่ไม่สะท้อนอาจส่งผ่านวัตถุ คลื่นตกกระทบทำให้วัตถุหรือสสารที่สัมผัสสั่น อย่างไรก็ตาม พลังงานส่วนใหญ่ที่ไม่สะท้อนอาจถูกดูดกลืนโดยวัตถุ พลังงานนี้จะเปลี่ยนไปเป็นความร้อนเนื่องจากแรงเสียดทานของสสาร (damping)

การเลี้ยวเบนเกิดขึ้นเมื่อการเปลี่ยนแปลงความดันในคลื่นเสียงที่ผ่านขอบของวัตถุมีปฏิสัมพันธ์กับอากาศที่อยู่ด้านหลังวัตถุ การเลี้ยวเบนจะมากหรือน้อยขึ้นอยู่กับความถี่ ดังรูป ความถี่ต่ำเลี้ยวเบนมากกว่าความถี่สูง


7. ฟิลเตอร์ (filter) คือตัวดัดแปลงสเปกตรัมของเสียงหรือสัญญาณ, low-pass filter ยอมให้องค์ประกอบความถี่ต่ำผ่านและลดทอนองค์ประกอบความถี่สูงให้มีขนาดเล็กลง, high-pass filter ยอมให้ความถี่สูงผ่านและลดทอนความถี่ต่ำ, band-pass filter ยอมให้ย่านความถี่ในช่วงใด ๆ ผ่านและลดทอนความถี่ที่สูงหรือต่ำกว่าย่านนั้น


รูปด้านล่างแสดงรูปคลื่นและสเปกตรัมของ complex tone (รูปบน) และรูปคลื่นและสเปกตรัมหลังจากที่มันผ่าน band-pass filter สองตัวที่มีความถี่กลางต่างกันแต่ bandwidth เท่ากัน


vocal tract กับเครื่องดนตรีเป็นระบบเรโซแนนต์ทางกายภาพที่ทำตัวเหมือนฟิลเตอร์

รูปต่อไปแสดง characteristics ของ band-pass filter ที่มีความถี่กลางเท่ากับ 1 kHz แกนความถี่เป็นสเกล logarithm ส่วนแกนตั้งเป็นระดับเสียง dB ของ output จากฟิลเตอร์เทียบกับระดับเสียง input เช่น ถ้าเราป้อน pure tone ความถี่ 200 Hz เข้าฟิลเตอร์ตัวนี้ ระดับเสียง output จะลดลงประมาณ 24 dB เทียบกับ input และเนื่องจากเป็นไปไม่ได้ที่จะมีฟิลเตอร์ตัวใดสามารถกำจัดความถี่นอก bandwidth ให้หมดไปอย่างสิ้นเชิง (ทำได้แค่ลดทอนให้มีความเข้มหรือความดันลดลง) การบอก bandwidth ของฟิลเตอร์จึงนิยมกำหนดด้วยระดับของ output ที่ลดทอนลง เช่น 3-dB bandwidth หรือ 10-dB bandwidth บางทีอาจบอกด้วยค่า Q ซึ่งเท่ากับอัตราส่วนระหว่างความถี่กลางต่อ bandwidth เช่น ถ้าความถี่กลางเท่ากับ 1 kHz และ 10-dB bandwidth = 400 Hz เราจะได้ Q10 = 2.5


เกี่ยวกับฟิลเตอร์มีค่าอีกค่าที่ควรรู้คือ ERB (equivalent rectangular bandwidth) โดย ERB คือ bandwidth ของสี่เหลี่ยมมุมฉากที่สูงเท่ากับค่าลดทอนที่ต่ำที่สุด (เมื่อให้แกนตั้งคือความเข้มของ output เทียบกับความเข้ม input ค่าลดทอนต่ำสุดบนแกนนี้คือ 1) และมีพื้นที่เท่ากับพื้นที่ใต้กราฟ characteristics ของฟิลเตอร์ ดังรูป


8. การดัดแปลงสเปกตรัมของเสียง จะทำให้ waveform ในโดเมนเวลาของเสียงเปลี่ยนไปด้วย และฟิลเตอร์แต่ละตัวจะมีผลตอบสนองอิมพัลซ์ (impulse response) ที่สัมพันธ์กับมัน (ผลตอบสนองอิมพัลซ์ คือ output ของฟิลเตอร์เมื่อ input คือ อิมพัลซ์) ซึ่งเราสามารถใช้ผลตอบสนองอิมพัลซ์นี้บรรยายปรากฏการณ์ดังกล่าวได้ สเปกตรัมของผลตอบสนองอิมพัลซ์เหมือนกับ characteristics การลดทอนของฟิลเตอร์


จากรูป บน แสดง waveform กับสเปกตรัมของอิมพัลซ์ สองรูป กลาง ล่าง แสดงผลตอบสนองอิมพัลซ์กับสเปกตรัมหลังจากสัญญาณในรูปบนผ่าน band-pass filter ที่แตกต่างกันสองตัว spectral characteristics ของฟิลเตอร์เหมือนกับสเปกตรัมของผลตอบสนองอิมพัลซ์

9. ในระบบเชิงเส้น ความดันหรือโวลเตจ output เท่ากับผลคูณของค่าคงที่กับความดันหรือโวลเตจ input นอกจากนี้ output จะมีเฉพาะองค์ประกอบทางความถี่ที่มีใน input เท่านั้น ส่วนในระบบที่ไม่เป็นเชิงเส้น ความดันหรือโวลเตจ output ไม่เป็นค่าคงที่เท่าของความดันหรือโวลเตจ input และมีองค์ประกอบทางความถี่ที่ output ที่ไม่ปรากฏในองค์ประกอบความถี่ที่ input องค์ประกอบที่เกิดขึ้นที่ output นี้เรียกว่า distortion products


รูปด้านล่าง บน คือ pure tone ที่ความถี่ 1 kHz กับสเปกตรัมของมัน ถ้าเอา pure tone ไปผ่านฟังก์ชั่นรากที่สอง จะมีได้ผลลัพธ์หน้าตาดังรูปกลาง และรูปล่าง เราจะเห็นผลลัพธ์หลังจากเอา pure tone รูปบนไปผ่านวงจรเรียงกระแสแบบครึ่งคลื่น การดำเนินการทั้งสองอย่างนี้ไม่เป็นเชิงเส้น เราจึงเห็นสเปกตรัมที่ไม่ปรากฏที่อินพุตโผล่ที่เอ้าต์พุต


รูปต่อมา บน แสดง pure tone ที่ความถี่ 1800 Hz กับ 2000 Hz รวมกัน ส่วนรูปกลางและล่าง เรานำ pure tone สองตัวในรูปบนไปดำเนินการผ่านฟังก์ชั่นหาค่ารากที่สองกับวงจรเรียงกระแสครึ่งคลื่นตามลำดับ (ทำนองเดียวกับรูปก่อนหน้านี้ แต่คราวนี้ input เป็น tone ที่มีความซับซ้อนขึ้นมาหน่อย)


10. เราสามารถแปลง waveform ที่มีความต่อเนื่องให้เป็นลำดับของเลขฐานสองซึ่งใช้แสดงความดันหรือโวลเตจที่จุดต่าง ๆ ไม่ต่อเนื่องทางเวลาได้ นั่นคือสัญญาณดิจิทัล ซึ่งสามารถใช้เป็นตัวแทนองค์ประกอบใด ๆ ใน waveform ต้นฉบับ ด้วยความถี่สูงสุดถึงครึ่งหนึ่งของอัตรา sampling

รูปแสดงการแปลงคลื่นเสียงเป็นลำดับของตัวเลขฐานสอง




 

Create Date : 27 เมษายน 2556    
Last Update : 22 สิงหาคม 2556 21:11:29 น.
Counter : 3970 Pageviews.  

Method of Digital-Audio Watermarking Based on Cochlear Delay Characteristics

เนื้อหาตอนนี้ สรุปจากบทความชื่อเดียวกันของ Masashi Unoki กับ Daiki Hamada ตีพิมพ์ใน International Journal of Innovative Computaing, Information and Control Vol 6 No 3 (B) ปี 2010

จากการทดลองที่ผมเคยเขียนถึงใน Judgment of Perceptual Synchrony Between Two Pulses and Its Relation to the Cochlear Delays ผลลัพธ์ดังกล่าวนั่นแหละครับคือหัวใจสำคัญของเทคนิคนี้ รูปด้านล่างแสดงสมบัติของ cochlea ที่เคยพูดถึงไปตอนที่แล้ว ขอสรุปสั้น ๆ อีกที เริ่มจากลักษณะทางกายภาพก้นหอย ท่อมีขนาดเล็กลงจาก base ไปยัง apex ดังรูปบนซ้ายที่สมมติว่าเรายืด cochlea ออกให้เป็นเส้นตรง (โปรดระลึกว่า สิ่งนี้ไม่สามารถทำได้ในทางกายภาพ) และ basilar membrane (BM) กว้างขึ้นจาก base ไปยัง apex โดย base ของ BM แคบและแข็งทื่อ (stiff) ทำให้มันอ่อนไหวต่อความถี่สูง ขณะ apex กว้างและคลายตัว (loose) กว่า อ่อนไหวต่อความถี่ต่ำ ของเหลวใน cochlea มีสมบัติบีบอัดได้ยาก (almost incompressible) พอกระดูก stapes กระทุ้งเข้ามาที่หน้าต่างวงรี ทำให้ BM ถูกกดลง (หน้าต่างวงกลมเคลื่อนที่พุ่งออกจาก cochlea) การสั่นของ stapes จึงทำให้ BM สั่น แต่ตำแหน่งที่ BM สั่นนั้นขึ้นอยู่กับองค์ประกอบทางความถี่ (รูปล่าง) ยิ่งความถี่ต่ำ ตำแหน่งของ BM ที่สั่นจะยิ่งเข้าใกล้ apex นอกจากนี้ ยังมีการหน่วงเวลา (delay) เพิ่มมากขึ้นเมื่อความถี่ต่ำลง เราจึงเห็นการสั่นของ BM ประหนึ่งคลื่นที่เคลื่อนที่จาก base ไปยัง apex และเรียกมันว่า traveling wave โปรดระลึกว่า traveling wave นี้ไม่ใช่คลื่นเสียงนะ


ผลการทดลองจากเปเปอร์ Judgment of Perceptual Synchrony บอกเป็นนัยว่าเสียงปกติธรรมดากับเสียง enhanced delay นั้นแยกได้ยากจากการฟัง รูปด้านล่าง ขวามือแสดงการหน่วงเวลาทางกายภาพ ทางซ้ายมือแสดงองค์ประกอบความถี่ต่าง ๆ ที่ปรากฏบน BM


ไอเดียคือ เราจะ delay องค์ประกอบความถี่ต่ำด้วยค่า delay ที่แตกต่างกัน 2 ค่าสำหรับบิต 0 กับ 1 ที่จะใช้ฝังลงในเสียงต้นฉบับ โดยที่ เสียงต้นฉบับกับเสียงที่เกิดจากการ delay ค่าที่หนึ่งและค่าที่สองนั้น ควรจะแยกความแตกต่างโดยการฟังได้ยาก เพราะสมบัติ cochlear delay ในการ delay องค์ประกอบความถี่ต่ำของเสียง ผู้เขียนใช้ IIR all-pass filter ที่ H(z) = (-b + z-1)/(1 - bz-1) เมื่อ b เป็นพารามิเตอร์ที่จะทำให้ group-delay characteristics ของ IIR all-pass filter แตกต่างกัน ผู้เขียนใช้ b = 0.795 เพื่อให้ได้ delay characteristics ที่จะใช้แทนการฝังบิต 0 และ b = 0.865 เพื่อให้ได้ delay characteristics ที่จะใช้แทนการฝังบิต 1 รูปด้านล่างแสดง block diagram ของการฝังข้อมูล


เราจะฝังข้อมูล s(k) ลงในสัญญาณเสียงต้นฉบับ x(n) เริ่มต้นด้วยการแบ่งเป็น frame แต่ละเฟรมจะผ่าน all-pass filter สองตัวเพื่อเลื่อนองค์ประกอบความถี่ต่ำของ x(n) ให้ช้ากว่าเดิมกันคนละค่า จากสมบัติ cochlear delay และผลการทดลองที่บอกว่า หูคนเราไม่สามารถแยกเสียงธรรมดากับเสียง enhanced delay ดังนั้น w0 w1 และ x(n) จึงควรที่จะไม่สามารถฟังแล้วแยกความแตกต่างได้ จากนั้น y(n) จะมีค่าเท่ากับ w0 หรือ w1 ขึ้นอยู่กับค่า s(k) ถ้า s(k) = 1 ⇒ y(n) = w1 ถ้า s(k) = 0 ⇒ y(n) = w0 นั่นเท่ากับเราได้ฝัง s(k) ลงไปใน x(n) กลายเป็น y(n) และ x(n) กับ y(n) เป็นเสียงที่แยกด้วยหูได้ยาก

(หมายเหตุ รูปข้างบน รูปที่แสดงอาจชวนสับสนค่า s(k) นิดหน่อย เพราะบนฝัง diagram เขียน s(k) = 010010101100110 แต่รูปคลื่นเสียงที่ผมใส่เพิ่มลงไปนั้น เป็นรูปจากอีกส่วนหนึ่งของการทดลอง s(k) = 10101010 ตามตัวเลขที่เขียนบนรูปคลื่น สีแดงคือส่วนที่ฝังข้อมูล 0 และสีเหลืองคือส่วนที่ฝังข้อมูล 1)

รูปด้านล่างแสดง block diagram ของการดึง s(k) ออกมาจาก y(n) และตัวอย่างเฟรม 4 กับ 5 สังเกตว่าการในดึง s(k) หรือ watermark bit นั้น ต้องอาศัย x(n) ด้วย เราเรียก watermarking แบบนี้ว่าเป็นแบบ non-blind วิธีการ เริ่มจากแบ่ง y(n) และ x(n) ออกเป็นเฟรมเหมือนตอนฝังข้อมูล (จะแบ่งเป็นเฟรมที่มีส่วนซ้อนทับกัน overlapped segments โดยใช้ฟังก์ชั่นหน้าต่างอันหนึ่ง) จากนั้นหาความต่างเฟสหลังแปลงฟูริเยร์ตามสมการแรกในกรอบ คำนวณ ΔΦ0 กับ ΔΦ1 แล้วเปรียบเทียบค่าของพวกมันเพื่อระบุค่า s(k)


ผู้เขียนได้ทดสอบสมบัติ inaudibility กับ robustness ของระบบ โดยการทดสอบ inaudibility มีทั้ง subjective และ objective test รูปด้านล่างแสดงผลลัพธ์จาก subjective evaluation ใช้วิธี ABX หมายถึง ให้ฟังท่อนเพลงยาว 10 วินาที 3 ครั้ง คือ A B และ X ต่อเพลง (ทดสอบทั้งหมด 4 ชนิดของเพลง) คลิปเสียงแต่ละครั้งห่างกันครึ่งวินาที ผู้เข้าร่วมทดสอบจะต้องบอกว่า X เหมือน A หรือ B มากกว่ากัน ในที่นี้ A และ B คือ เสียงต้นฉบับ x(n) และเสียงหลังจากฝังข้อมูล y(n) ขณะที่ X อาจจะเป็น x(n) หรือ y(n) นั่นคือ ถ้าเราแยกระหว่าง A กับ B ไม่ออก โอกาสที่จะทาย X ถูกเท่ากับ 50% และผลลัพธ์ดังรูปด้านล่างแสดงให้เห็นว่า อัตราตอบถูกอยู่ใกล้กับ 50%



Figure 11 แสดงการให้ ODG ตาม PEAQ พล็อตในโดเมนของบิตเรต ถ้าเกรดต่ำกว่า -1 หมายถึงคุณภาพเสียงแย่ (ODG เคยพูดถึงตอนแนะนำเทคนิค SVD), Figure 12 แสดงผล LSD ในโดเมนบิตเรตเช่นกัน ถ้าค่า LSD เกิน 1 หมายถึงเกิด distortion ในสเปกตรัมเกินกว่าจะรับได้, Figure 13 แสดง bit-detection rate ในโดเมนของบิตเรตเช่นกัน โดยตั้งเงื่อนไขว่า ถ้า detection rate ต่ำกว่า 75% หมายถึง เริ่มดึง watermark bit ออกมาด้วยค่าที่ผิดมากเกินไป จากทั้งสามรูป จะเห็นขีดจำกัดด้านบิตเรตของวิธีการนี้อยู่ที่ 256 bps



รูปต่อมาแสดง bit-detection rate เมื่อผ่านการโจมตี 3 แบบ resampling, quantization และ compression



ตารางเปรียบเทียบ robustness กับอัลกอริทึ่มอื่นเมื่อผ่านการโจมตีทั้ง 3 แบบข้างต้น




 

Create Date : 26 เมษายน 2556    
Last Update : 26 เมษายน 2556 21:16:12 น.
Counter : 1892 Pageviews.  

The Nature of Sound (สรุป)

เนื้อหาตอนนี้เรียงลำดับตามสรุปในหัวข้อ 2.6 Summary และขยายความตามเนื้อหาในหัวข้อก่อนหน้าจากบทที่ 2 The Nature of Sound หนังสือ The Sense of HEARING ของ Christopher J. Plack

1. เสียงเกิดจากการเปลี่ยนแปลงความดันในตัวกลางบางอย่าง เช่น อากาศ ความดันที่เปลี่ยนแปลงนี้จะกระจายออกจากแหล่งกำเนิดเสียงด้วยอัตราเร็วที่ขึ้นอยู่กับชนิดของตัวกลางนั้น เช่น อัตราเร็วเสียงในอากาศที่ความดันบรรยากาศ มีค่าประมาณ 330 เมตร/วินาที (อัตราเร็วเสียงในอากาศ นอกจากจะขึ้นกับความดันอากาศแล้วยังขึ้นอยู่กับอุณหภูมิอีกด้วย) โมเดลการสั่นหรือการเปลี่ยนแปลงความดันของตัวกลางสามารถแสดงได้ด้วยสายโซ่ลูกกอล์ฟที่เชื่อมกันด้วยสปริง รูปแสดงเฟรมเวลา 6 เฟรมต่อเนื่องกันจากบนลงล่าง


การทำให้ความดันเปลี่ยนแปลงจุดใดจุดหนึ่ง จะส่งผลให้การเปลี่ยนความดันนั้นแพร่กระจายตัวออกด้วยอัตราเร็วที่ขึ้นอยู่กับความหนาแน่น (density) และความแข็งทื่อ (stiffness) ของสสารตัวกลาง ถ้าตัวกลางหนาแน่นมาก อัตราเร็วจะต่ำ เพราะวัตถุที่มวลมากใช้เวลานานกว่าในการเร่ง ส่วนตัวกลางที่แข็งทื่อกว่า อัตราเร็วเสียงจะมากกว่า เช่น เสียงเดินทางในเหล็ก (stiffness สูงมาก) ด้วยอัตราเร็ว 5200 m/s ขณะที่เดินทางในยางวัลกาไนซ์ (vulcanized rubber) ซึ่งมีความหนาแน่นสูงแต่ไม่แข็งทื่อ ด้วยอัตราเร็ว 54 m/s กรณีตัวกลางคือน้ำ ถึงแม้น้ำจะหนาแน่นกว่าอากาศ แต่ stiffness ของน้ำสูงกว่าอากาศมาก ทำให้อัตราเร็วของเสียงในน้ำประมาณ 1500 m/s

2. pure tone คือ เสียงที่มีการเปลี่ยนแปลงความดันเมื่อเวลาผ่านไปแบบ sinusoidal โดยความถี่ของ pure tone หาได้จากจำนวนลูกคลื่น (การสลับกันหนึ่งรอบของสันคลื่นกับท้องคลื่น) ที่เกิดขึ้นในช่วงเวลา และคาบของ pure tone คือ เวลาระหว่างยอดคลื่นสองยอดที่อยู่ติดกัน ระยะห่างระหว่างยอดคลื่นทั้งสองนั้น เรียกว่า ความยาวคลื่น

3. ขนาด (magnitude) ของคลื่นเสียงสามารถพูดถึงได้ในรูปของ ความดัน หรือความเข้ม (intensity) ของคลื่นเสียง หรือพูดถึงระดับเสียงในหน่วย logarithm ที่เรียกว่า เดซิเบล (dB) เรานิยมใช้หน่วย dB เพราะหากใช้หน่วยของความดัน (N/m2) หรือความเข้ม (W/m2) นั้น ช่วงความกว้างของเสียงที่เราได้ยินจะมีค่ามหาศาล ไม่สะดวก พูดไปพูดมาแล้วงง เสียงที่เริ่มทำให้เราเจ็บปวดมีขีดเริ่มที่ความเข้มประมาณ 1,000,000,000,000 เท่าของความเข้มเสียงเบาที่สุดที่เราได้ยิน

ระดับเสียงในหน่วย dB = 10 log10(I/I0) หรือ = 20 log10(P/P0) เพราะ I ∼ P2

I0 และ P0 คือ ระดับความเข้มอ้างอิงและความดันอ้างอิง ว่ากันตามความนิยมนั้น สำหรับระดับเสียงในอากาศ เราใช้ความดันอ้างอิงเท่ากับ 0.00002 N/m2 (หรือ I0 = 10-12 W/m2) และถ้าใช้ความดันอ้างอิงค่านี้ เราจะเรียกระดับเสียงในหน่วย dB ดังกล่าวว่า SPL (sound presure level) นั่นคือ เสียงที่มีความดันเท่ากับความดันอ้างอิง จะมีระดับเสียงเท่ากับ 0 dB SPL (ตามนิยาม เพราะ P = P0 และ log 1 = 0) อันที่จริงค่าความดันอ้างอิงดังกล่าว เราเลือกเพราะ 0 dB SPL จะมีค่าใกล้เคียงกับระดับเสียงต่ำที่สุดที่เราสามารถได้ยินที่ความถี่ 1 kHz

ลองคิดเล่น ๆ ครับ ความดันบรรยากาศประมาณ 105 N/m2 และเสียงเบาสุดที่เราสามารถได้ยินสัมพันธ์กับความผันผวนของความดันราว 2 x 10-5 N/m2 หมายความว่า เราสามารถได้ยินคลื่นเสียงที่มีความดันผันผวนต่ำกว่าหนึ่งในพันล้านของความดันบรรยากาศ เปรียบเทียบได้กับคลื่นน้ำที่มีความสูงแค่ 1 มิลลิเมตรบนผิวมหาสมุทรที่มีความลึก 1,000 กิโลเมตร !!! แม้กระทั่งเสียงที่ระดับ 120 dB SPL อันเป็นระดับที่ทำให้คุณปวดหูและส่งผลเสียต่อหู ก็มีความผันผวนของความดันด้วยขนาดที่ต่ำกว่าระดับความดันบรรยากาศถึงห้าพันเท่า กำลังจะบอกว่า การเปลี่ยนแปลงของความดันคลื่นเสียงที่เราได้ยินกันในชีวิตประจำวันนั้นมีค่าน้อยนิดเพียงไร แสดงให้เห็นว่าหูของเราเป็นอวัยวะที่ sensitive เพียงไร


รูปแสดงการจับคู่ (map) ระหว่างอัตราส่วนของความเข้ม I/I0 กับ dB SPL และแสดง dB SPL ของเสียงต่าง ๆ ในชีวิตประจำวัน ที่ระดับสูงสุด ผู้เขียนใช้คำว่า Ozzy นั้นอ้างถึง Ozzy Osbourne ร็อกเกอร์ในตำนาน เป็นความกวนและขี้เล่นของผู้เขียนครับ แกบอกว่า ครั้งหนึ่งเคยได้ยิน Ozzy Osbourne บอกว่า เดี๋ยวนี้เขาไม่ค่อยได้ยินเสียงอะไรเท่าไร เพราะที่ผ่านมาฟังเสียงดัง 30 พันล้านเดซิเบลมาทั้งชีวิต ซึ่งระดับ 30 พันล้านเดซิเบลนั้นเท่ากับ 102999999988 W/m2 อันเป็นกำลังงานที่มากพอจะทำลายทั้งเอกภพ นับประสาอะไรกับหูของ Ozzy จึงเขียนในกราฟด้านบนที่ระดับสูงสุดไว้ว่า Ozzy

อย่าลืมว่าหน่วย dB เป็นสเกล logarithm นะครับ ถ้าเรารวมเสียงระดับ 40 dB SPL เข้ากับอีกเสียงหนึ่งซึ่งมีระดับ 40 dB SPL เหมือนกัน ผลลัพธ์ที่ได้จะไม่ใช่เสียงที่มีระดับ 80 dB SPL เพราะเสียง 80 dB SPL นั้นมีความเข้มมากกว่าเสียง 40 dB SPL ถึงหนึ่งหมื่นเท่า (เพราะ 40 dB ⇔ I = 10,000 I0 และ 80 dB ⇔ I = 100,000,000 I0) ในความเป็นจริง สองเสียงนี้รวมกันจะได้เสียงที่ระดับ 43 dB SPL (ถือว่ามีความสัมพันธ์ของเฟสเป็นแบบสุ่ม)

4. (4.1) คลื่นเสียงใด ๆ สามารถสร้างขึ้นได้โดยการรวม pure tone หลาย ๆ อันที่มีขนาด (amplitude) ความถี่ และเฟส ต่างกัน, (4.2) การพล็อตสเปกตรัมของคลื่นเสียงแสดงให้เห็นระดับขององค์ประกอบ pure tone แต่ละอันโดยมีโดเมนคือความถี่, (4.3) สเปกโทรแกรมของเสียงแสดง short-term spectrum ของเสียง เป็นฟังก์ชั่นของเวลา, (4.4) เนื่องจาก time-frequency tradeoff การเพิ่มความละเอียด (resolution) ในโดเมนเวลา จะลดความละเอียดในโดเมนความถี่ และการเพิ่มความละเอียดในโดเมนความถี่ จะละความละเอียดในโดเมนเวลา

รูปด้านล่างนี้แสดงตัวอย่างจากข้อความ 4.1 และ 4.2


รูปต่อไปนี้แสดง waveform และสเปกตรัมของ pure tone ที่มีความถี่ 2 kHz ในช่วงเวลา 20 ms (รูปบน), 10 ms (รูปกลาง) และรูปล่างแสดง waveform กับสเปกตรัมของสัญญาณ impulse


ในกรณีของ pure tone ที่ต่อเนื่องไม่มีจุดเริ่มต้น ไม่มีจุดจบนั้น สเปกตรัมของมันจะเป็นเส้นหนึ่งเส้นที่ความถี่ของ pure tone แต่ถ้าเป็น pure tone ช่วงเวลาสั้น ๆ ตามรูป สเปกตรัมของมันจะกว้างขึ้น กฎทั่วไปคือ การเปลี่ยนแปลงแอมปลิจูดทันทีทันใดในโดเมนความถี่ หมายถึงหรือสัมพันธ์กับการมีแอมปลิจูดกระจายอยู่กว้างในโดเมนเวลา และการเปลี่ยนแปลงทันทีทันใดของแอมปลิจูดในโดเมนเวลา หมายถึงการมีแอมปลิจูดกระจายอยู่กว้างในโดเมนความถี่

ความสัมพันธ์อันนี้บอกเราว่า ถ้าเราวิเคราะห์สัญญาณเสียงช่วงเวลาสั้น ๆ เท่าไร สเปกตรัมในโดเมนความถี่ของมันก็จะยิ่งกระจายออกมาก (blurred) เท่านั้น จึงเกิด time-frequency tradeoff ยิ่งความละเอียดในเวลาสูง ความละเอียดในความถี่ก็ยิ่งแย่

รูปด้านล่างแสดงสเปกโทรแกรมของสัญญาณ pure tone ต่อเนื่องและสัญญาณ impulse สเปกโทรแกรมเป็นการพล็อตระดับด้วยความเข้มของสีดำบนโดเมนเวลา (แกนนอน) และความถี่ (แกนตั้ง) หรือพูดว่าแสดง short-term spectrum ของเสียงในโดเมนเวลา จากรูป เห็นว่าถ้าช่วงของ window แคบ (ความละเอียดทางเวลาสูง) สเปกตรัมความถี่จะแผ่กว้างกว่า เบลอกว่า (เราใช้ window เพราะไม่อยากให้บริเวณขอบของการตัดนั้นเกิดการเปลี่ยนแปลงทันทีทันใด)


5. complex tone แบบซ้ำคาบจะมี waveform ที่ซ้ำ ๆ กันตลอดช่วงเวลา สเปกตรัมของเสียงเหล่านี้มีองค์ประกอบ pure tone จำนวนหนึ่ง ซึ่งมีความถี่เป็นจำนวนเต็มเท่าของความถี่มูลฐาน (fundamental frequency) หรือจำนวนของ waveform ที่เกิดขึ้นซ้ำ ๆ นั้นในหนึ่งวินาที รูปด้านล่างแสดง waveform และสเปกตรัมของ complex tone สามสัญญาณ รูปบน คาบของ waveform เท่ากับ 10 ms นั่นคือ ความถี่มูลฐานเท่ากับ 100 Hz รูปกลางกับรูปล่างมีคาบเท่ากับ 5 ms และความถี่มูลฐาน 200 Hz


ในกรณีกลุ่มของฮาร์มอนิกส์ที่ผสมกันแบบตามใจฉัน ความถี่มูลฐานคือจำนวนที่มีค่ามากที่สุดที่สามารถเอาไปหารความถี่ของฮาร์มอนิกส์ทุกตัวได้ลงตัว เช่น ฮาร์มอนิกส์ประกอบด้วย 550 600 700 750 Hz ความถี่มูลฐานจะเท่ากับ 50 Hz

รูปด้านล่างแสดงตัวอย่าง complex tone ที่สร้างจาก pure tone หลาย ๆ ตัวซึ่งมีความถี่เป็นจำนวนเต็มเท่ารวมกัน waveform ที่เขียนเลข 1 คือองค์ประกอบมูลฐาน และจะเห็นว่าอัตราการซ้ำของ complex tone เท่ากับความถี่ขององค์ประกอบมูลฐาน คือ 200 Hz


ทีนี้ สังเกตรูปล่างสุด (จากรูปข้างบน) 2+3+4 เราลบองค์ประกอบพื้นฐานทิ้งไป waveform ของมันมีหนาตาแตกต่างจาก 1+2+3+4 แต่อัตราการซ้ำรูปยังเหมือนเดิม คือ 200 Hz นั่นคือ ความถี่มูลฐานของ complex tone ขึ้นอยู่กับระยะห่างของฮาร์มอนิกส์ ไม่ใช่ความถี่ของฮาร์มอนิกส์ต่ำสุดที่ปรากฏ

รูปด้านล่างแสดง complex tone สองเสียงที่มีความถี่มูลฐานเดียวกัน คือ 200 Hz แต่สเปกตรัมของพวกมันแตกต่างกันอย่างสิ้นเชิง เสียงรูปบนจะให้อารมณ์มืดกว่า ขณะที่เสียงจากรูปล่างจะสว่างสดใสกว่า นี่ใช้ตอบคำถามได้ว่าเหตุใดเครื่องดนตรี 2 ชิ้นที่เล่นโน้ตเดียวกันจึงมีเสียงแตกต่างกัน และให้อารมณ์แตกต่างกัน นั่นก็เพราะโครงสร้างฮาร์มอนิกของเสียงทั้งสองต่างกัน


6. เสียงรบกวน (noise) มีความผันผวนของแรงดันเป็นแบบสุ่มตลอดช่วงเวลา สเปกตรัมของ noise จะมีการกระจายขององค์ประกอบทางความถี่ที่ต่อเนื่อง ตัวอย่าง noise และสเปกตรัมของมันแสดงดังรูปข้างล่างนี้


7. Amplitude modulation คือการเปลี่ยนแอมปลิจูดของ envelope ของเสียงในโดเมนเวลา, Frequency modulation คือการเปลี่ยนแปลงความถี่ของเสียงในโดเมนเวลา การดำเนินการทั้งคู่จะส่งผลกระทบต่อสเปกตรัม และสร้างองค์ประกอบทางความถี่เพิ่มเติมขึ้นมาอีกจำนวนหนึ่ง


รูปบนแสดง pure tone ที่ความถี่ 1 kHz มอดูเลตแอมปลิจูดกับ sinusoidal ที่ความถี่ 200 Hz เห็นว่าสเปกตรัมมีการเปลี่ยนแปลง มี spectral side bands ที่ความถี่ 800 และ 1200 Hz ส่วนรูปล่างเป็น frequency modulation และมีระยะห่างระหว่างสเปกตรัมเท่ากับ 200 Hz




 

Create Date : 25 เมษายน 2556    
Last Update : 26 เมษายน 2556 20:57:10 น.
Counter : 5073 Pageviews.  

สารบัญกลุ่มเรื่องที่กำลังศึกษา

โน้ตส่วนตัวระหว่างการเรียนรู้ เนื้อหาเกี่ยวข้องกับ หู การรับรู้เสียง การทำลายน้ำของเสียง (audio watermarking) และการซ่อนข้อมูลในเสียง รวมถึงเครื่องมือ DSP พื้นฐาน ผมเริ่มสร้างกลุ่มบล็อกนี้เมื่อวันที่ 5 เมษายน 2556 และเพิ่มเติมเนื้อหาล่าสุดวันที่ 25 กรกฎาคม 2558

พื้นฐาน

Introduction to Digital Audio Watermarking [11 มิถุนายน 2556]
Audio Watermarking Algorithms: State-of-the-Art [14 มิถุนายน 2556]

เกร็ดความรู้จากหนังสือ The Science of Sound

เกร็ดความรู้เกี่ยวกับหูชั้นกลาง [29 เมษายน 2556]
Georg von Békésy [24 พฤษภาคม 2556]
Subjective Attributes of Sound [24 สิงหาคม 2556]

The Sense of Hearing

บทที่ 02 The Nature of Sound [25 เมษายน 2556]
บทที่ 03 Production, Propagation, and Processing of Sound [27 เมษายน 2556]
บทที่ 04 A Journey Through the Auditory System [4 พฤษภาคม 2556]
บทที่ 05 Frequency Selectivity [10 พฤษภาคม 2556]
บทที่ 06 Loudness and Intensity Coding [14 พฤษภาคม 2556]
บทที่ 07 Pitch and Periodicity Coding [21 พฤษภาคม 2556]
บทที่ 08 Hearing Over Time
บทที่ 09 Spatial Hearing
บทที่ 10 The Auditory Scene
บทที่ 11 Speech

An Introduction to the Psychology of Hearing

Absolute Thresholds [24 สิงหาคม 2556]
The Critical Band Concept & The Power Spectrum Model [21 ตุลาคม 2556]

บทความเกี่ยวกับการรับรู้เสียง

Judgment of Perceptual Synchrony Between Two Pulses and Its Relation to the Cochlear Delays [16 เมษายน 2556]
Masking [3 กันยายน 2556]

Audio Watermarking Techniques

An Audio Watermarking Algorithm Based on Fast Fourier Transform [5 เมษายน 2556]
A New Audio Watermarking Scheme Based on Singular Value Decomposition and Quantization [14 เมษายน 2556]
High Capacity Audio Watermarking Using the High Frequency Band of Wavelet Domain [18 เมษายน 2556]
Method of Digital-Audio Watermarking Based on Cochlear Delay Characteristics [26 เมษายน 2556]
Audio Watermarking Based on Spread Spectrum Communication Technique [6 พฤษภาคม 2556]
Echo Data Hiding [14 มิถุนายน 2556]
Experiments with and Enhancements to Echo Hiding [16 มิถุนายน 2556]
Experimental Research on Parameter Selection of Echo Hiding in Voice [20 มิถุนายน 2556]
Audio Watermarking of Stereo Signals Based on Echo-Hiding Method [20 มิถุนายน 2556]
EMD and Psychoacoustic Model Based Watermarking for Audio [15 กรกฎาคม 2556]
A Novel Echo-Hiding Scheme with Backward and Forward Kernels [15 กรกฎาคม 2556]
Analysis-by-Synthesis Echo Hiding Scheme Using Mirrored Kernels [15 กรกฎาคม 2556]
Researches on Echo Kernels of Audio Digital Watermarking Technology Based on Echo Hiding [15 กรกฎาคม 2556]
Research of Improved Echo Data Hiding: Audio Watermarking based on Reverberation [16 กรกฎาคม 2556]
Reversible Watermarking for Digital Audio Based on Cochlear Delay Characteristics [27 กรกฎาคม 2556]
Detection of Tampering in Speech Signals with Inaudible Watermarking Technique [27 กรกฎาคม 2556]
Data-hiding Scheme for Digital-Audio in Amplitude Modulation Domain [27 กรกฎาคม 2556]
An SVD-Based Audio Watermarking Technique [27 สิงหาคม 2556]
Flaw in SVD-based Watermarking [27 สิงหาคม 2556]

เครื่องมือ

What is a Cepstrum? [21 มิถุนายน 2556]
Arnold Transform (Arnold's Cat Map) [5 กรกฎาคม 2556]
Hilbert-Huang Transform [16 กรกฎาคม 2556]
Correlation [27 กรกฎาคม 2556]
Least Squares [28 กรกฎาคม 2556]
Orthogonality [28 กรกฎาคม 2556]
Differential Evolution [28 มกราคม 2558]
ทดลองเล่นกับ pitch ของ complex tones [25 กรกฎาคม 2558]  NEW 
ทดลองเล่นกับกฎของคลื่นเสียงที่มาถึงก่อน [25 กรกฎาคม 2558]  NEW 

ตำราที่ใช้ประกอบการเรียนรู้



[01] The Sense of Hearing โดย Christopher J. Plack (Psychology Press, 2005)
[02] An Introduction to the Psychology of Hearing (6th Ed) โดย Brian C. J. Moore (Emerald, 2012)
[03] The Science of Sound (3rd Ed) โดย Rossing, Moore กับ Wheeler (Addison Wesley, 2002)
[04] Applied Signal Processing โดย Thierry Dutoit กับ Ferran Marques (Springer, 2009)
[05] Audio Signal Processing and Coding โดย A. Spanias, T. Painter กับ V. Atti (Wiley, 2007)
[06] Fundamentals of Acoustic Signal Processing โดย M. Tohyaman กับ T. Koike (AP, 1998)
[07] Digital Signal Processing with Examples in MATLAB โดย S. Stearns กับ D. Hush (CRC, 2011)
[08] Signal Processing, Perceptual Coding and Watermarking of Digital Audio โดย Xing He (IGI Global, 2011)
[09] Watermarking in Audio โดย Xing He (Cambria Press, 2008)
[10] Advanced Techniques in Multimedia Watermarking โดย Ali Mohammad Al-Haj (Information Science Reference, 2010)
[11] Digital Audio Watermarking Techniques and Technologies โดย Nedeljko Cvejic กับ Tapio Seppanen (IGI Global, 2007)
[12] Digital Watermarking and Steganography โดย I. Cox, M. Miller, J. Bloom, J. Fridrich, กับ T. Kalker (Morgan Kaufmann, 2007)
[13] Elements of Wavelets for Engineers and Scientists โดย Dwight F. Mix กับ Kraig J. Olejniczak (John Wiley & Sons, 2003)
[14] Introduction to Data Compression (2nd Ed) โดย Khalid Sayood (Morgan Kaufmann, 2000)
[15] Digital Filters (2nd Ed) โดย R.W. Hamming (Prentice-Hall, 1983)
[16] Mathematical Tools in Signal Processing with c++ and Java Simulations โดย Willi-Hans Steeb (World Scientific, 2005)

Readings

[001] S. A. Craver, M. Wu, and B. Liu, "What Can We Reasonably Expect from Watermarks?," in Proc. IEEE Workshop on Application of Signal Processing to Audio and Acoustics, New York, pp. 223-226, 2001
[002] M. Fallahpour and D. Megias, "High Capacity Audio Watermarking Using the High Frequency Band of the Wavelet Domain," Multimedia Tools and Applications, vol. 52, no. 2-3, pp. 485-498, 2011
[003] E. Ercelebi and L. Batakci, "Audio Watermarking Scheme Based on Embedding Strategy in Low Frequency Components with a Binary Image," Digital Signal Processing, vol. 19, no. 2, pp. 265-277, 2009
[004] M. Unoki and D. Hamada, "Method of Digital-Audio Watermarking Based on Cochlear Delay Characteristics," International Journal of Innovative Computing, Information and Control, vol. 6, no. 3, pp. 1325-1346, 2010
[005] V. Bhat, I. Sengupta, and A. Das, "A New Audio Watermarking Scheme Based on Singular Value Decomposition and Quantization," Circuits Systems and Signal Processing, vol. 30, no. 5, pp. 915-927, 2011
[006] S. Lee and Su. Jung, "A Survey of Watermarking Techniques Applied to Multimedia," in Proc. IEEE International Symposium on Industrial Electronics Proceedings, 2001
[007] X. Wen, X. Ding, J. Li, L. Gao, and H. Sun, “An Audio Watermarking Algorithm Based on Fast Fourier Transform,” in Proc. International Conference on Information Management, Innovation Management and Industrial Engineering Proceeding, pp. 363-366, 2009
[008] E. Aiba, M. Tsuzuki, S. Tanaka, M. Unoki, “Judgment of Perceptual Synchrony Between Two Pulses and Its Relation to the Cochlear Delays,” J. Psychological Research, Vol. 50, No. 4, 2008
[009] W. Bender, D. Gruhl, N. Morimoto and A. Lu, "Techniques for data hiding," IBM Systems Journal, vol. 35, no. 384, pp. 313-336, 1996
[010] H. J. Kim and Y. H. Choi, "A Novel Echo-Hiding Scheme With Backward and Forward Kernels," IEEE Transactions on Circuits and Systems for Video Technology, vol. 13, no. 8, pp. 885-889, 2003
[011] W. Wu and O. Chen, "Analysis-by-Synthesis Echo Hiding Scheme Using Mirrored Kernels," in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, Toulouse, pp. 325-328, 2006
[012] G. Nian, S. Wang, and Y. Ge, "Research of Improved Echo Data Hiding: Audio Watermarking Based on Reverberation," in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, Honolulu, pp. 117-180, 2007
[013] F. Wei and D. Qi, "Audio Watermarking of Stereo Signals Based on Echo-Hiding Method," in Proc. International Conference on Information, Communications and Signal Processing, Macau, 2009
[014] W. Yunlu and W. Zhendong, "Blind Detection on Echo Hiding Based on Cepstrums," in IEEE Youth Conference on Information, Computing and Telecommunication, Beijing, pp. 235-238, 2009
[015] L. Li and Y. Song, "Experimental Research on Parameter Selection of Echo Hiding in Voice," in Proc. International Conference on Machine Learning and Cybernetics, Baoding, pp. 2423-2426, 2009
[016] S. Mitra and S. Manoharan, "Experiments with and Enhancements on Echo Hiding," in Proc. International Conference on Systems and Networks Communications, Porto, pp. 119-124, 2009
[017] X. Cao and L. Zhang, "Researches on Echo Kernels of Audio Digital Watermarking Technology Based on Echo Hiding," in Proc. International Conference on Wireless Communications and Signal Processing, Nanjing, 2011
[018] L. Wang, S. Emmaue, and M.S. Kankanhalli, "EMD and Psychoacoustic Model Based Watermarking for Audio," in Proc. IEEE International Conference on Multimedia and Expo, Suntec City, pp. 1427-1432, 2010
[019] F.R. Moore, "An Introduction to the Mathematics of Digital Signal Processing Part I: Algebra, Trigonometry, and the Most Beautiful Formula in Mathematics," Computer Music Journal, vol. 2, no. 1, pp. 38-47, 1978
[020] F.R. Moore, "An Introduction to the Mathematics of Digital Signal Processing Part II: Sampling, Transforms, and Digital Filtering," Computer Music Journal, vol. 2, no. 2, pp. 38-60, 1978
[021] X. Zhang and Y. Hao, "An Adaptive Audio Watermarking Algorithm Based on Cepstrum Transform," in Proc. International Conference on Computational Sciences and Optimization, Harbin, pp. 806-809, 2012
[022] V. Korzhik, G. Morales-Luna, and I. Fedyanin, "The Use of Wet Paper Codes With Audio Watermarking Based on Echo Hiding," in Proc. Federated Conference on Computer Science and Information Systems, Wroclaw, pp. 727-732, 2012
[023] M.S. Al-Yaman, M.A. Al-Taee, and H.A. Alshammas, "Audio-Watermarking Based Ownership Verification System Using Enhanced DWT-SVD Technique," in Proc. International Multi-Conference on Systems, Signals and Devices, Chemnitz, pp. 1-5, 2012
[024] C. Maha, E. Maher, and B.A. Choki, "A blind audio watermarking scheme based on Neural Network and Psychoacoustic Model with Error correcting code in Wavelet Domain," in Proc. International Symposium on Communications, Control and Signal Processing, St. Julians, pp. 1138-1143, 2008
[025] K. Ren and H. Li, "Large Capacity Digital Audio Watermarking Algorithm Based on DWT and DCT," in Proc. International Conference on Mechatronic Science, Electric Engineering and Computer, Jilin, pp. 1765-1768, 2011
[026] N.E. Huang and Z. Wu, "A Review on Hilbert-Huang Transform: Method and Its Application to Geophysical Studies," Reviews of Geophysics, vol. 46, issue 2, 2008
[027] B. Chen and G.W. Wornell, "Quantization Index Modulation: A Class of Provably Good Methods for Digital Watermarking and Information Embedding," IEEE Transaction on Information Theory, vol. 47, no. 4, 2001
[028] B. Chen and G.W. Wornell, "Digital Watermarking and Information Embedding Using Dither Modulation," in Proc. IEEE Workshop on Multimedia Signal Processing, Redondo Beach, CA, pp.273-278, 1998
[029] M. Unoki and R. Miyauchi, "Reversible Watermarking for Digital Audio Based on Cochlear Delay Characteristics," in Proc. International Conference on Intelligent Information Hiding and Multimedia Signal Processing, Dalian, China, pp. 314-317, 2011
[030] N.M. Ngo, M. Unoki, R. Miyauchi, and Y. Suzuki, "Data-hiding scheme for digital-audio in amplitude modulation domain," in Proc. International Conference on Intelligent Information Hiding and Multimedia Signal Processing, Piraeus, pp. 114-117, 2012
[031] M. Unoki and R. Miyauchi, "Detection of Tampering in Speech Signals with Inaudible Watermarking Technique," in Proc. International Conference on Intelligent Information Hiding and Multimedia Signal Processing, Piraeus, pp. 118-121, 2012
[032] E. Ercelebi and L. Batakci, "Audio watermarking scheme based on embedding strategy in low frequency components with a binary image," Digital Signal Processing, vol. 19, issue 2, pp.265-277, 2009
[033] A.R. Elshazly, M.M. Fouad, and M.E. Nasr, "Secure and Robust High Quality DWT Domain Audio Watermarking Algorithm with Binary Image," in Proc. International Conference on Computer Engineering & Systems, Cairo, pp. 207-212, 2012
[034] Fathi E. Abd El-Samie, "An Efficient Singular Value Decomposition Algorithm for Digital Audio Watermarking," International Journal of Speech Technology, vol. 12, issue 1, pp. 27-45, 2009
[035] J. Zhang, "Analysis on Audio Watermarking Algorithm based on SVD," in Proc. 2nd International Conference on Computer Science and Network Technology, Changchun, China, pp. 1986-1989, 2012
[036] P. K. Dhar and T. Shimamura, "An Audio Watermarking Scheme Using Discrete Fourier Transformation and Singular Value Decomposition," in Proc. 35th International Conference on Telecommunications and Signal Processing, Prague, pp. 789-794, 2012
[037] H. Ozer, B. Sankur, and N. Memon, "An SVD-based Audio Watermarking Technique," in Proc. the 7th Workshop on Multimedia and Security, New York, pp.51-56, 2005
[038] G. Suresh, "An Efficient and Simple Audio Watermarking Using DCT-SVD," in Proc. International Conference on Devices, Circuits and System, Coimbatore, pp. 177-181, 2012
[039] A. Al-Haj, C. Twal, and A. Mohammad, "Hybrid DWT-SVD Audio Watermarking," in Proc. Fifth International Conference on Digital Information Management, Thunder Bay, ON, pp. 525-529, 2010
[040] L. Lamarche, Y. Liu, and J. Zhao, "Flaw in SVD-based Watermarking," in Proc. Canadian Conference on Electrical and Computer Engineering, Ottawa, Ont., pp. 2082-2085, 2006
[041] P. K. Dhar and T. Shimamura, "Audio Watermarking in Transform Domain Based on Singular Value Decomposition and Quantization," in Proc. 18th Asia-Pacific Conference on Communications, Jeju Island, pp. 516-521, 2012
[042] S. Vongpraphip and M. Ketcham, "An Intelligence Audio Watermarking Based on DWT-SVD Using ATS," in Proc. WRI Global Conference on Intelligence Systems, Xiamen, pp. 150-154, 2009
[043] A. Singhal, A. N. Chaubey, and C. Prakkash, "Audio Watermarking Using Combination of Multilevel Wavelet Decomposition, DCT and SVD," in Proc. International Conference on Emerging Trends in Networks and Computer Communications, Udaipur, pp. 239-243, 2011
[044] V. Bhat K., I. Sengupta, and A. Das, "An Audio Watermarking Scheme Using Singular Value Decomposition and Dither-Modulation Quantization," Multimedia Tools and Applications, vol. 52, nos. 2-3, pp. 269-283, 2011
[045] S. Karimimehr, S. Samavi, H. R. Kaviani, and M. Mahdavi, "Robust Audio Watermarking based on HWD and SVD," in Proc. 20th Iranian Conference on Electrical Engineering, Tehran, pp. 1363-1367, 2012
[046] W. Jiang, "Fragile Audio Watermarking Algorithm Based on SVD and DWT," in Proc. International Conference on Intelligence Computing and Integrated Systems, Guilin, pp. 83-86, 2010
[047] A. Al-Haj and A. Mohammad, "Digital Audio Watermarking Based on the Discrete Wavelets Transform and Singular Value Decomposition," European Journal of Scientific Research, vol. 39, no. 1, pp. 6-21, 2010
[048] P. K. Dhar and T. Shimamura, "A DWT-DCT-Based Audio Watermarking Method Using Singular Value Decomposition and Quantization," Journal of Signal Processing, vol. 17, no. 3, pp. 69-79, 2013
[049] E. Ambikairajah, A. G. Davis, and W. T. K. Wong, "Auditory Masking and MPEG-1 Audio Compression," Electronics & Communication Engineering Journal, vol. 9, issue 4, pp. 165-175, 1997


อนิพฺพินฺทิยการิสฺส สมฺมทตฺโถ วิปจฺจติ

ทำเรื่อยไป ไม่ท้อถอย ผลที่ประสงค์จะสำเร็จสมหมาย
     




 

Create Date : 18 เมษายน 2556    
Last Update : 25 กรกฎาคม 2558 20:17:25 น.
Counter : 2275 Pageviews.  

1  2  3  4  5  6  7  8  9  
 Pantip.com | PantipMarket.com | Pantown.com | © 2004 BlogGang.com allrights reserved.