creatio ex nihilo

ศล
Location :
กรุงเทพ Thailand

[Profile ทั้งหมด]

ให้ทิปเจ้าของ Blog [?]
ฝากข้อความหลังไมค์
Rss Feed
Smember
ผู้ติดตามบล็อก : 85 คน [?]




Group Blog
 
All Blogs
 
Friends' blogs
[Add ศล's blog to your web]
Links
 

 
Loudness and Intensity Coding

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

เนื้อหาตอนนี้ผมสรุปจากบทที่ 6 ในชื่อเดียวกัน หนังสือ The Sense of Hearing โดย Christopher J. Plack รายละเอียดบทที่ 2 - 5 ดูได้จากสารบัญกลุ่มเรื่องที่กำลังศึกษาตามลิงค์ข้างบนครับ

ลักษณะของเสียงถูกกำหนดโดยการเปลี่ยนแปลงความเข้ม (intensity) ในโดเมนความถี่และเวลา ด้วยเหตุนี้ เพื่อให้สามารถแยกแยะเสียงหนึ่งออกจากอีกเสียงหนึ่งได้ ระบบรับรู้เสียงของเราจะต้องมีวิธีแทนความเข้มเสียงในรูปการส่งสัญญาณไฟฟ้าในเส้นประสาท และมีวิธีเปรียบเทียบความเข้มนั้นในโดเมนความถี่และเวลา

The Dynamic Range of Hearing

dynamic range ของระบบใด ๆ คือช่วงหรือพิสัยของระดับต่าง ๆ ที่ระบบสามารถทำงานได้ dynamic range ของการได้ยินก็คือ ช่วงที่อยู่ระหว่างระดับเสียงต่ำสุดกับระดับเสียงสูงสุดที่เรายังสามารถประมวลเสียงได้อย่างมีประสิทธิภาพ ระดับเสียงต่ำสุดที่ผู้ฟังสามารถได้ยินในสภาพแวดล้อมที่ไม่มีเสียงอื่นรบกวน เรียกว่า absolute threshold (ขีดเริ่มสัมบูรณ์) รูป audiogram ด้านล่างนี้พล็อต absolute threshold เป็นฟังก์ชั่นของความถี่ของ pure tone


จากรูป absolute threshold คือ เส้นหนาล่างสุด ความหมายของเส้นนี้คือ เราจะเริ่มได้ยินเสียง pure tone ที่ความถี่ใด ๆ ในสภาพแวดล้อมสงบ ก็ต่อเมื่อ pure tone นั้นมีระดับเสียงอย่างน้อยเท่ากับ absolute threshold เห็นว่า threshold มีค่าต่ำในช่วง 1000 - 6000 Hz หรือพูดอีกอย่างหนึ่งว่า ช่วงความถี่นี้เป็นช่วงที่เรามีความอ่อนไหว (sensitivity) ต่อเสียงมากที่สุด ซึ่งย่านอ่อนไหวดังกล่าวก็สะท้อนถึงเรโซแนนซ์ในหูชั้นนอกและชั้นกลาง และเสียงในย่านความถี่ 1 kHz - 6 kHz ก็สามารถถูกส่งผ่านให้กับ cochlea ได้อย่างมีประสิทธิภาพกว่าเสียงในย่านความถี่อื่น (และก็ไม่น่าแปลกใจที่เสียงพูดของคนเราจะอยู่ในย่านความถี่นี้แหละ) แต่ละเส้น audiogram แสดงถึงการเท่ากันของความดัง (loudness) ของทุกจุดบนเส้นนั้น และตัวเลขบนเส้นที่อยู่ในแนวดิ่งตรงกับ 1 kHz คือ ระดับเสียงของ pure tone ที่ความถี่ 1 kHz

ช่วงความถี่ของการได้ยินในคน ประมาณ 20 Hz - 20 kHz (ค่าความถี่สูงสุดจะสูงกว่านี้ในสัตว์เลี้ยงลูกด้วยนมสายพันธุ์อื่น) และตรงบริเวณปลายสูงสุด-ต่ำสุดของความถี่ที่เราสามารถได้ยิน absolute threshold จะสูงกว่า 80 dB SPL รูปด้านบนไม่ได้แสดงระดับเสียงที่ความถี่มากกว่า 15 kHz แต่โปรดทราบว่า threshold จะเพิ่มขึ้นอย่างรวดเร็ว (ความชันมาก) ที่ความถี่มากกว่า 15 kHz

ตอนนี้เราได้ระดับเสียงต่ำสุดแล้ว คือ absolute threshold มีค่าต่ำสุดประมาณ 0 dB SPL (หากยังจำได้ หน่วย dB SPL เราจงใจกำหนดความดันอ้างอิง = 0.00002 N/m2 เพราะอยากให้ 0 dB SPL มีค่าใกล้เคียงกับระดับเสียงต่ำสุดที่เราสามารถได้ยินที่ 1 kHz) คำถาม ระดับเสียงสูงสุดจะหายังไง? มี 2 วิธีครับ (1) ดูระดับที่เริ่มทำให้เจ็บปวด ถ้าเสียงมีระดับสูงกว่า 120 dB SPL เราจะเริ่มรู้สึกเจ็บปวดทางกายภาพ การฟังเสียงที่ระดับสูง ๆ นี้แม้เพียงช่วงเวลาสั้น ๆ ก็อาจทำลายหูได้อย่างถาวรนะครับ (2) ดูระดับที่เราเริ่มแยกเสียงสองเสียงไม่ออก เช่น สมมติเราสามารถฟังเสียง 140 dB SPL ได้ แต่เราฟังมันแล้วก็ไม่เห็นจะต่างจากเสียง 130 dB SPL จากการทดลอง (ซึ่งมีไม่มากนัก ด้วยเหตุผลทางศีลธรรม) พบว่าความสามารถในการตรวจจับความแตกต่างระหว่างระดับเสียงสองระดับ จะเริ่มลดลงเมื่อระดับเสียงสูงกว่า 100 dB SPL แต่ในงานศึกษาบางชิ้นก็ระบุว่า ยังมีความเป็นไปได้อยู่นะที่จะแยกความแตกต่างที่ระดับเสียงสูงถึง 120 dB SPL สรุปตอนนี้ ไม่ว่าจะใช้วิธีไหน เราก็ประเมินคร่าว ๆ ได้ว่าระดับเสียงสูงสุดอยู่ราว 120 dB SPL นั่นคือ dynamic range ของการได้ยินเท่ากับ 0 dB - 120 dB SPL ในย่านความถี่กลาง ๆ (1 kHz - 6 kHz) และ range ลดลงเมื่อความถี่สูงหรือต่ำกว่าย่านนี้ ถ้าดูความเข้มเสียงสูงสุดกับต่ำสุดนะครับ ตัวเลข 120 dB SPL บอกเราว่า ความเข้มเสียงสูงสุดสูงกว่าความเข้มเสียงต่ำสุดถึงหนึ่งล้านล้านเท่า!

Loudness

เราคุ้นเคยกับความดัง (loudness) กันบ่อยในชีวิตประจำวัน เช่น พูดว่า "นศ. ธรรมศาสตร์ใช้ห้องสมุดติวหนังสือกันเสียงดังเกินไป" ความดังคืออะไร? ความดัง สามารถนิยามได้ว่า เป็นปริมาณที่เกี่ยวข้องกับการรับรู้เสียงซึ่งมีความสัมพันธ์กับความเข้มเสียง ขอขยายความหน่อยนะครับ คำว่า "ปริมาณที่เกี่ยวข้องกับการรับรู้เสียง" แปลว่า ความดัง เป็น subjective ใช้คนเป็นตัววัด ซึ่งปริมาณตัวนี้จะมีความสัมพันธ์กับปริมาณทางกายภาพที่สามารถวัดได้ด้วยเครื่องมือ เช่น ความเข้มหรือความดัน ตัวอย่าง ถ้าผมเปิด volume เครื่องขยายเสียงขึ้น นั่นคือ ผมเพิ่มความเข้มเสียงทางกายภาพ และผมได้ยินเสียงดังขึ้น นี่คือปริมาณที่เกี่ยวกับการรับรู้ และเราจะไม่พูดว่า "เสียงนี้มีความดัง 50 dB SPL" เพราะ dB เป็นหน่วยของปริมาณทางกายภาพ ไม่ใช่หน่วยของขนาดเชิงอัตวิสัย

ในเมื่อความดังเป็นตัวแปรที่เป็นอัตวิสัยหรือ subjective งั้นแปลว่ามันไม่สามารถวัดได้รึเปล่า? ไม่ใช่นะครับ เพราะ ถ้ามีใครมาบอกให้เราปรับเสียง 2 เสียงให้ดังเท่ากัน เราสามารถทำภารกิจนี้ได้ หมายความว่า เราสามารถวัดความดังของเสียงได้ ตัวอย่างเส้นใน audiogram รูปแรก ก็บอกว่าทุกจุดบนเส้นนั้นมีความดังเท่ากัน และบอกโดยเทียบกับความดังของ pure tone ความถี่ 1 kHz สังเกตว่า เส้นกราฟความดังเท่ากันจะตกท้องช้างตรงย่านความถี่กลาง ๆ เหมือนกราฟ absolute threshold (ซึ่งก็เป็นเส้นความดังเท่ากันเหมือนกัน, หรือจะพูดว่า เส้นที่ไม่ดังเท่ากันเหมือนกันก็ได้ เพราะมันเพิ่งเริ่มได้ยิน :P) และที่ระดับเสียงสูง ๆ กราฟก็เริ่มแบนมากขึ้น หมายความว่า ความดังไม่แปรตามความถี่เท่าไรนักที่ระดับเสียงสูง

เราวัดระดับความดัง (loudness level) ของ pure tone ที่ความถี่ใด ๆ โดยปรับความดังของ tone ที่ความถี่ 1000 Hz ให้เท่ากับความดังของ tone ตัวที่เรากำลังจะหาความดัง แล้วดูระดับในหน่วย dB SPL ของ 1000-Hz pure tone ซึ่งระดับความดังนี้จะมีหน่วยเป็น phons เช่น ดูกราฟรูปแรก เห็นว่า pure tone ความถี่ 100 Hz ที่ 40 dB SPL มีความดังเท่ากับความดังของ 1000-Hz pure tone ที่ระดับเสียง 10 dB SPL เราจะพูดว่า pure tone 100 Hz 40 dB SPL มีความดัง 10 phons หรือพูดอีกอย่างหนึ่งว่า เส้นกราฟเส้นที่ 2 จากล่าง (เส้นที่มีเลข 10 กำกับ) คือ เส้นที่มีความดัง 10 phons ลองอีกสักตัวอย่างนะ เสียงใดก็ตามที่ดังเท่ากับ 1000-Hz pure tone ที่ระดับ 60 dB SPL จะมีความดัง 60 phons อันนี้คือการวัดระดับความดังด้วยการจับคู่ความดังที่เท่ากัน (loudness matching)

loudness matching ยังสามารถใช้ในการดูผลกระทบของ bandwidth ที่มีต่อความดัง โดยการปรับระดับของเสียงที่ bandwidth คงที่จนกว่าจะได้ความดังเท่ากับเสียงที่ bandwidth ไม่คงที่ ผลลัพธ์ที่ได้คือ การเพิ่ม bandwidth ของ noise ที่ระดับเสียงรวมคงที่ (หมายความว่าระดับของสเปกตรัมลดลงเมื่อ bandwidth กว้างขึ้น) จะทำให้ความดังเพิ่มขึ้น เมื่อ bandwidth ของ noise นั้นกว้างกว่า bandwidth ของฟิลเตอร์ของระบบรับรู้เสียง และระดับของ noise เป็นระดับกลาง ๆ ดังรูป


แต่หาก bandwidth ของ noise แคบกว่า bandwidth ของฟิลเตอร์ การเปลี่ยน bandwidth ของ noise จะส่งผลกระทบเพียงเล็กน้อยต่อความดังของเสียงที่ระดับรวมคงที่ ลองมองอีกมุมนะครับ ถ้ากำลังของเสียงถูกกระจายออกกินบริเวณกว้างของ cochlea จะทำให้ความดังเพิ่มขึ้น เพราะความดังไม่ได้ถูกกำหนดจากเพียงแค่ระดับเสียงเท่านั้น แต่ต้องดูการกระจายสเปกตรัมด้วย

นอกจากนี้ loudness matching ยังใช้ดูผลกระทบของช่วงเวลาต่อความดังได้อีก โดยการเปลี่ยนระดับของเสียงที่กำหนดช่วงเวลาคงที่กระทั่งมันดังเท่ากับเสียงที่ช่วงเวลาไม่คงที่ พบว่า เสียงที่กินช่วงเวลานานกว่า จะดังกว่า นั่นคือ ที่ระดับเสียงกลาง ๆ pure tone ซึ่งมีช่วงเวลาสั้น ๆ จะต้องมีระดับเสียงสูงกว่า pure tone ที่มีช่วงเวลายาวกว่า เพื่อให้ pure tone ทั้งสองมีความดังเท่ากัน แต่ถ้าเป็นกรณีระดับเสียงสูงหรือต่ำ ความแตกต่างนี้จะลดลง เป็นไปได้ครับว่าผลกระทบที่ระดับเสียงกลาง ๆ ดังกล่าวสัมพันธ์กับการบีบอัดที่ระดับเสียงกลาง ๆ บน basilar membrane

loudness matching อาจให้ข้อมูลสำคัญแก่เราในเรื่องผลกระทบต่อความดังอันเนื่องมาจากลักษณะบางอย่าง เช่น ความถี่ bandwidth หรือ ช่วงเวลา ของเสียง แต่กระนั้น loudness matching ก็ไม่อาจบอกเราได้ตรง ๆ ว่าความดังเปลี่ยนไปตามระดับเสียงอย่างไร พูดอีกอย่างว่า วิธี loudness matching ไม่ได้ให้ตัวเลขที่สัมพันธ์โดยตรงกับขนาดความรู้สึกของเรา

วิธีหนึ่งที่เราอาจใช้วัดได้คือ เปิดเสียง 2 เสียง แล้วให้คนฟังป้อนค่าตัวเลขว่าเสียงที่ดังกว่านั้นดังกว่าเท่าไร หรือไม่อีกวิธี ก็ขอให้ผู้ฟังปรับเสียงหนึ่งจนกว่าจะดังเป็น 2 เท่า (หรือ x เท่า) ของอีกเสียงหนึ่ง วิธีการทั้งสองวิธีนี้มีชื่อเรียก magnitude estimation กับ magnitude production ตามลำดับ แล้วก็ใช้ได้ผลดี ทำให้เราได้กฎกำลังของ Steven (Steven's power law) บอกว่า

          L = kIα

เมื่อ L คือ ความดัง ในหน่วย sone, I คือ ความเข้มเสียง ในหน่วย W/m2 และ k เป็นค่าคงที่ ความดัง 1 sone นั้นนิยามเท่ากับความดังของเสียง pure tone ความถี่ 1 kHz ที่ระดับ 40 dB SPL ความดังของเสียงที่ดังกว่านี้ 4 เท่า เราจะพูดว่ามีความดัง 4 sones สำหรับเลขชี้กำลัง α มีค่าอยู่ระหว่าง 0.2 กับ 0.3 สำหรับเสียงระดับสูงกว่า 40 dB SPL และสำหรับความถี่มากกว่า 200 Hz แต่ในเสียงที่ระดับต่ำกว่า 40 dB SPL และสำหรับเสียงความถี่ต่ำกว่า 200 Hz นั้น ความดังจะเพิ่มขึ้นอย่างมากเมื่อความเข้มเพิ่ม (ค่า α สูงกว่า 0.3) รูปต่อไปนี้แสดงความดังที่เพิ่มขึ้นตามระดับเสียงของ 1000-Hz pure tone


ฟังก์ชั่นที่แสดงความสัมพันธ์ระหว่างระดับเสียงกับความดังนั้น คล้ายกับฟังก์ชั่นแสดงความสัมพันธ์ระหว่างระดับเสียงกับอัตราเร็วของการเคลื่อนที่ของ basilar membrane กล่าวคือ ฟังก์ชั่นทั้งสองจะลึกชันที่ระดับเสียงต่ำมากกว่าที่ระดับเสียงสูงเมื่อพล็อตบนสเกล logarithm และจากการศึกษาของ Schlauch, DiGiovanni กับ Reis (1998) เราพูดได้ว่า ความดังแปรผันตามอัตราเร็วของ basilar membrane ยกกำลังสอง

นอกจากนี้ เราสามารถใช้แบบจำลองความดัง (models of loudness) จาก excitation pattern มาอธิบายผลกระทบของระดับเสียงกับ bandwidth ได้ด้วย แบบจำลองจะคำนวณความดังจำเพาะ (specific loudness) ที่ output ของฟิลเตอร์แต่ละตัวในแต่ละย่านความถี่ ซึ่งก็คือความเข้มของสัญญาณ input ที่ถูกบีบอัดนั่นแหละ (เนื่องจากการบีบอัดบน basilar membrane) เราสามารถถือว่าความดังจำเพาะที่ความถี่ศูนย์กลางใด ๆ เป็นความดังที่ตำแหน่งซึ่งสัมพันธ์กันบน basilar membrane และเราหาความดังสุทธิของเสียงจากผลรวมของความดังจำเพาะตลอดความถี่กลางทั้งหมด เท่ากับ ความดังเป็นการวัดกิจกรรมทั้งหมดของ basilar membrane


ข้างบนเป็นรูปแสดงความดังจำเพาะของ noise สองตัวที่มี bandwidth ต่างกัน แต่มีระดับเสียงโดยรวมเท่ากัน แบบจำลองความดังบอกว่า ความดังของเสียงเท่ากับพื้นที่ใต้กราฟรูปแบบความดังจำเพาะ ดังนั้น noise ที่แคบกว่าจะดังน้อยกว่า ถึงแม้ bandwidth กว้างกว่า 2 เท่าจะทำให้ความหนาแน่นสเปกตรัมลดลงครึ่งหนึ่ง แต่ความดังจำเพาะที่แต่ละความถี่กลางจะลดลงไม่มาก ทั้งนี้เพราะสมบัติบีบอัดของ cochlea

สรุปนะครับ พลังงานของเสียงกระตุ้นที่แผ่กระจายครอบคลุมย่านความถี่กว้างกว่าหรือกินอาณาบริเวณของ cochlea มากกว่า จะทำให้ความดังเพิ่มขึ้น

แบบจำลองความดังสามารถใช้ประมาณค่าความดังของเสียงใด ๆ ก็ได้ ความสำเร็จของแบบจำลองบอกเราเป็นนัยว่า การรับรู้ความดังของมนุษย์นั้น มาจากผลรวมของกิจกรรมของนิวรอนทั้งหมดในระบบรับรู้เสียง

How is Intensity Represented in the Auditory System?

สมบัติพื้นฐานประการหนึ่งของเส้นใยประสาทระบบรับรู้เสียงคือ firing rate จะเพิ่มขึ้นเมื่อระดับเสียงเพิ่มขึ้น ฉะนั้น คำตอบต่อคำถามหัวข้อนี้ก็ดูเหมือนไม่มีอะไร ข้อมูลเกี่ยวกับความเข้มเสียงถูกแทนหรือถูกนำเสนอโดย firing rate ของนิวรอน แต่ในความเป็นจริงมันไม่ง่ายแค่นี้นะสิ

intensity discrimination (การแยกความเข้ม) หมายถึง ความสามารถของคนเราที่จะตรวจจับความแตกต่างระหว่างความเข้มของเสียงสองเสียง โดยทั่วไป เราจะทำการทดลองแบบนี้ครับ ให้ผู้ร่วมทดลองฟังเสียง 2 เสียงที่มีระยะห่างประมาณ 0.5 วินาที ดังรูป


ผู้ฟังต้องตอบว่าเสียงไหนดังกว่ากัน จากนั้นทำซ้ำ โดยแต่ละรอบของการทำซ้ำให้ลด ΔI ลงเรื่อย ๆ จนกว่าผู้ฟังจะตอบถูกต่ำกว่าเกณฑ์ที่เรากำหนด เช่น กำหนดว่าต้องตอบถูก 71% เราก็จะได้ ΔI ต่ำสุดที่ทำให้ผู้ฟังตรวจจับความแตกต่างได้ ต่อไปเราเขียนแทน ΔI นะครับ ให้รู้กันว่าหมายถึง "ΔI ต่ำสุด"

jnd หรือ just-noticeable difference ของความเข้มเสียงนิยมแสดงด้วย 2 แบบนี้ คือ เศษส่วนเวเบอร์ (Weber fraction) ในหน่วย dB กับ ΔL

          Weber fraction = ΔI / I

เมื่อ I คือความเข้มเสียงที่เป็น baseline (หรือ pedestal)

          Weber fraction (ในหน่วย dB) = 10 × log10(ΔI / I)

สมการนี้บอกเราว่า ถ้าคุณจำเป็นต้องเพิ่มความเข้มของเสียงขึ้นสองเท่าในการทำให้เราตรวจจับได้ว่าความดังของมันเปลี่ยน พูดอีกอย่างว่า นี่คือกรณีที่ ΔI = I ก็จะได้เศษส่วนเวเบอร์เท่ากับ 0 dB (เพราะ log 1 = 0) ถ้า jnd สัมพันธ์กับการเพิ่มความเข้มที่น้อยกว่าสองเท่า (ซึ่งก็คือกรณีที่ ΔI < I) เศษส่วนเวเบอร์ในหน่วย dB จะมีค่าติดลบ (เพราะ log10x < 0 เมื่อ 0 < x < 1)

การแสดง jnd ด้วย ΔL

          ΔL = 10 × log10[(ΔI + I) / I]

สังเกตว่า ΔL จะไม่มีทางติดลบนะครับ เพราะ ΔI + I ≥ I เสมอ และในกรณีที่ jnd สูงมาก ๆ หรือ ΔI >> I เราก็จะได้ เศษส่วนเวเบอร์ ≈ ΔL

คำถามสำคัญถัดมาคือ คนเรามีความสามารถแยกความเข้มเสียงได้ดีแค่ไหน? เศษส่วนเวเบอร์สำหรับ wideband white noise มีค่าประมาณ -10 dB (หรือ ΔL = 0.4 dB) และค่อนข้างคงที่ในโดเมนของระดับเสียง สำหรับช่วงระดับ 30 dB SPL ถึง 110 dB SPL แต่ถ้าระดับเสียงต่ำกว่า 30 dB SPL เศษส่วนเวเบอร์จะมีค่าสูงขึ้น (หมายความว่า ความสามารถในการแยกความเข้มต่ำลง) ดังรูป


การที่เศษส่วนเวเบอร์มีค่าคงที่หมายความว่า ΔI แปรตาม I สมบัติอันนี้ ΔI ~ I เรียกว่ากฎของเวเบอร์ และเศษส่วนเวเบอร์ -10 dB หมายความว่า เราเริ่มสามารถตรวจจับความแตกต่างระหว่างความเข้มของ noise สองตัวได้เมื่อความเข้มของพวกมันต่างกัน 10%

นอกจากนี้ยังมีการทดลองเพื่อดูเศษส่วนเวเบอร์ของ pure tone ความถี่ 1 kHz พบว่า เศษส่วนเวเบอร์ลดต่ำลงเมื่อระดับเสียงเพิ่มมากขึ้น สำหรับระดับสูงสุดถึง 100 dB SPL (ดูเส้นวงกลมดำ รูปบน) แต่เมื่อระดับสูงกว่า 100 dB SPL เศษส่วนเวเบอร์จะกลับเพิ่มขึ้นมาอีกครั้ง (ไม่ได้แสดงในรูป) กระนั้นความสามารถในการแยกยังอยู่ในเกณฑ์ดีที่ระดับเสียงสูงมากนี้ ตัวอย่างในงานศึกษาของ Viemeister กับ Bacon พบว่าเศษส่วนเวเบอร์เท่ากับ -6 dB SPL สำหรับ pure tone ระดับ 120 dB SPL

ตรงนี้แหละครับที่เป็นต้นตอปัญหาที่น่าสนใจ มนุษย์สามารถแยกความเข้มเสียงที่ระดับสูงถึง 120 dB SPL ได้ ทั้ง ๆ ที่เส้นใยประสาทส่วนใหญ่ (ชนิด spontaneous rate สูง, ดู บทที่ 4) จะอิ่มตัวที่ 60 dB SPL หมายความว่า ถึงแม้คุณจะเพิ่มระดับเสียงกระตุ้นมากขึ้น แต่ firing rate ก็เท่าเดิม นั่นเท่ากับนิวรอนส่วนใหญ่ไม่อาจใช้ firing rate เพียงอย่างเดียวในการนำเสนอหรือบอกข้อมูลเกี่ยวกับระดับเสียงที่มีระดับสูงกว่า 60 dB SPL ได้ นอกจากนี้นะครับ พวกเส้นใยส่วนน้อยที่ spontaneous rate ต่ำ ถึงแม้พวกมันจะมีช่วงตอบสนองที่กว้างกว่า แต่ฟังก์ชั่น rate-level ของมันก็มีความชันน้อยเมื่อเทียบกับเส้นใยชนิด spontaneous rate สูง นั่นคือ การเปลี่ยนระดับในเส้นใยส่วนน้อยเหล่านี้ จะส่งผลกระทบต่อ firing rate ไม่มาก ฉะนั้น พวกมันจึงไม่น่าจะอ่อนไหวสักเท่าไรต่อความแตกต่างในความเข้ม ทำให้เกิดคำถามสำคัญว่า แล้วคนเราสามารถแยกความแตกต่างความเข้มที่ระดับเสียงสูงมากอย่าง 120 dB SPL ได้อย่างไร?

คำอธิบายหนึ่งว่าเหตุใดเศษส่วนเวเบอร์ถึงได้มีค่าน้อย ๆ ที่ระดับ pure tone สูง ๆ คือ ผู้ฟังยังมี information เกี่ยวกับ excitation pattern ทั้งหมด ซึ่งข้อมูลตัวนี้แหละครับที่อาจช่วยให้เราสามารถแยกความเข้มเสียงที่ระดับเสียงสูงได้ มีเหตุผลสนับสนุนที่เป็นไปได้ 2 ข้อ (1) ถึงแม้ว่าเส้นใยประสาทส่วนใหญ่ที่มีความถี่ลักษณะเฉพาะใกล้กับความถี่ของ pure tone จะอิ่มตัวที่ระดับเสียงสูง แต่นิวรอนซึ่งมีความถี่ลักษณะเฉพาะอยู่ห่างจากความถี่ของ pure tone (หรือบริเวณบน basilar membrane ที่อยู่ไกลจากบริเวณที่มีการสั่นสูงสุด) ได้รับการกระตุ้นไม่มาก นิวรอนพวกนี้จึงยังไม่อิ่มตัว และสามารถใช้ firing rate ของพวกมันบอกการเปลี่ยนระดับเสียงได้


รูปนี้แสดงการจำลองกิจกรรมของเส้นใยชนิด sr (spontaneous rate) สูงและต่ำในโดเมนความถี่ลักษณะเฉพาะที่ตอบสนองต่อ pure tone ความถี่ 1 kHz ณ ระดับเสียงต่าง ๆ กัน กราฟนี้คือรูปแบบการกระตุ้น (neural excitation pattern) นะครับ เห็นว่า จุดสูงสุดของ excitation pattern จะอิ่มตัวสำหรับเส้นใย sr สูงที่ระดับเสียงสูง เพราะนิวรอนที่มีความถี่ลักษณะเฉพาะใกล้กับ 1 kHz ตามรูปนี้อิ่มตัว แต่นิวรอนที่มีความถี่ลักษณะเฉพาะอยู่ห่างออกมาจาก 1 kHz พอสมควรจะยังไม่อิ่มตัว เส้นใยของนิวรอนเหล่านี้จึงใช้บอกการเปลี่ยนแปลงระดับเสียงได้

(2) ผู้ฟังอาจรวบรวม information ทั่วทั้ง excitation pattern เพื่อเพิ่มประสิทธิภาพความสามารถในการแยกความเข้ม ยิ่งมีการใช้นิวรอนมากตัวก็ยิ่งมีความแม่นยำในการแทนความเข้มเสียง โดยเฉพาะ information จากฝั่งความถี่สูงของ excitation pattern อาจเป็นประโยชน์มาก เพราะฝั่งนี้จะแปรตามระดับของตัวกระตุ้นอย่างรวดเร็วเมื่อเทียบกับ excitation pattern ย่านความถี่กลาง ๆ

มีนักวิจัยได้ทดสอบสมมติฐานที่ว่า information จากขอบ ๆ (skirts) ของ excitation pattern ถูกใช้ในการตรวจจับความแตกต่างของความเข้ม พวกเขาทดลองโดยการ masking บริเวณ skirts เหล่านี้ด้วย noise รูปด้านล่างแสดงผลลัพธ์จากการทดลองแยกความเข้มของ pure tone 1 kHz กรณีมี noise และไม่มี noise ซึ่ง noise ทำหน้าที่พราง information จากขอบข้าง ๆ ของ excitation pattern (เป็น noise ชนิด band-stop ที่มีความถี่ cutoff เท่ากับ 500 Hz และ 2 kHz) แต่กระนั้น การเพิ่ม noise ก็ทำให้ประสิทธิภาพลดลงไม่มาก แค่ทำให้กฎของเวเบอร์กลับมาเหมือนในกรณี wideband noise เท่านั้นแหละครับ


ราวกับระบบรับรู้เสียงสามารถนำเสนอเสียงระดับสูง ๆ โดยใช้นิวรอนในช่วงความถี่ลักษณะแคบ ๆ เท่านั้น และส่วนใหญ่ นิวรอนเหล่านี้ก็อิ่มตัวเสียด้วย!

ในบางสถานการณ์ ความเข้มสามารถแทนหรือนำเสนอได้ด้วยการล็อกเฟส (phase locking) ในนิวรอน จากความรู้บทที่ 4 เส้นใยประสาทจะส่งสัญญาณไฟฟ้าหรือถูกกระตุ้นที่เฟสเฉพาะเฟสใดเฟสหนึ่งของโครงสร้างละเอียดของ waveform เสียง ตัวอย่างเช่น ระบบรับรู้เสียงของเราอาจแยก pure tone ที่มาพร้อมกับ noise ได้จากการตรวจจับรูปแบบที่มีระเบียบ (regularity) จากรูปแบบไร้ระเบียบของ firing (เพราะ noise ทำให้เกิดรูปแบบไร้ระเบียบของ phase locking) นอกจากนี้ การเพิ่มความเข้มของ pure tone ในขณะที่มี noise อาจเท่ากับเพิ่มความเป็นระเบียบให้มากขึ้น ถึงแม้ว่าเส้นใยประสาทจะอิ่มตัวและไม่สามารถเปลี่ยนแปลง firing rate ได้ นั่นคือ รูปแบบของกิจกรรมในนิวรอนสามารถเปลี่ยนแปลงได้ตามระดับเสียง นี่อาจช่วยในการนำเสนอหรือแทนเสียงซึ่งซับซ้อนที่ระดับเสียงสูง ๆ

ในกรณีตัวอย่างการทดลองเมื่อตะกี้ เส้นใยประสาทอาจแสดงการเปลี่ยนระดับเสียงด้วยการเปลี่ยนดีกรีของ synchronization ของ spike ของ pure tone และผลจากการเพิ่ม band-stop noise โดยหวังป้องกันการใช้ข้อมูลจาก skirts ของ excitation pattern อาจช่วยเพิ่ม dynamic range ของเส้นใยโดยไม่ได้ตั้งใจ แต่กระนั้น ความสามารถแยกความเข้มเสียงใน band-stop noise ก็ยังเป็นไปได้ที่เสียงระดับสูง ๆ และความถี่สูง ๆ ซึ่งสูงกว่าความถี่ที่คิดกันว่าจะไม่เกิด phase locking แล้ว นั่นหมายความว่า ถึงแม้ phase locking จะมีส่วนช่วยต่อการแยกความเข้มเสียงในบางสถานการณ์ แต่มันต้องมีอย่างอื่นอีก (ที่เรายังไม่รู้?, หนังสือค้างไว้แค่นี้) (การเปลี่ยนรูปแบบของ firing rate เป็นหัวข้อศึกษาที่กำลังทำในปัจจุบัน)

Comparisons across Frequency and across Time

แน่นอนว่าความดังของเสียงสัมพันธ์กับความเข้มสัมบูรณ์ (absolute intensity) ของเสียง กล่าวคือ ระดับความดันเสียงสูง ความดังก็ยิ่งมาก แต่ความเข้มสัมบูรณ์ก็เป็นตัววัดที่มีประโยชน์แค่ในบางสถานการณ์เท่านั้นแหละครับ เช่น ตอนเราจะประมาณความใกล้ไกลของแหล่งกำเนิดเสียงที่เราคุ้นเคย แต่ในบางสถานการณ์ เช่น การแยกแยะเสียงนั้น ความเข้มสัมบูรณ์ไม่ค่อยมีประโยชน์เท่าไร เพราะความเป็นสระ /i/ ก็ยังเหมือนเดิมไม่ว่าจะพูดที่ 50 dB หรือ 100 dB SPL นั่นคือ สิ่งสำคัญในการแยกแยะเสียงคือความเข้มสัมพัทธ์ (relative intensity) ของ features ในเสียง การเปรียบเทียบความเข้มสัมพัทธ์ทำได้ใน 2 โดเมน คือ เปรียบเทียบในโดเมนความถี่และในโดเมนเวลา


การเปรียบเทียบความเข้มของสเปกตรัมแต่ละตัว (เปรียบเทียบในโดเมนความถี่) บางครั้งมีชื่อเรียกว่า profile analysis และมีการทดลองสำคัญอันหนึ่งในยุคต้น ๆ คือการทดลองของ Green และคณะ (1988) เขาให้ผู้ฟังฟังเสียง 2 เสียง ซึ่งแต่ละเสียงมีหลายความถี่ ในเสียงหนึ่งแต่ละความถี่จะมีความเข้มเท่ากันหมด ส่วนในอีกเสียงหนึ่ง จะมี tone ตัวหนึ่งที่มีความเข้มโดดออกมา สูงกว่าชาวบ้าน ดังรูปด้านล่าง การทดลองให้ผู้ฟังฟังหลายรอบ แต่ละรอบระดับเสียงโดยรวมก็เปลี่ยนไปอย่างสุ่ม และก็สุ่มให้เสียงที่มีโทนโดดอาจเป็นเสียงแรกหรือเสียงหลังก็ได้ 50-50 หน้าที่ของผู้ฟังคือ ให้ระบุว่าเสียงไหนเป็นเสียงที่มีโทนโดด


Green พบว่า ผู้ฟังสามารถแยกได้ นั่นหมายถึง เราสามารถเปรียบเทียบความเข้มสัมพัทธ์ของสเปกตรัมได้ ซึ่งผลการทดลองก็ไม่น่าแปลกใจเท่าไรใช่มั้ยครับ เพราะถ้าเราทำอย่างนั้นไม่ได้ เราก็ไม่สามารถตรวจจับ formant ในเสียงสระได้ (formant คือ จุดยอดของสเปกตรัมเสียงพูด) เราก็ฟังเสียงพูดกันไม่รู้เรื่อง นอกจากนี้ยังพบว่า ความสามารถดังกล่าวแทบไม่ขึ้นอยู่กับช่วงระยะห่างระหว่างเสียง 2 เสียง (อย่างน้อยก็ห่างกันได้ถึง 8 วินาที) ไม่เหมือนกับความสามารถในการแยกความเข้มของ pure tone สองตัว ถ้าช่วงเวลาระหว่าง pure tone ทั้งสองยิ่งห่าง เราก็ยิ่งแยกไม่ได้

เช่นเดียวกับการเปรียบเทียบความเข้มในโดเมนความถี่ เราสามารถเปรียบเทียบความเข้มในโดเมนเวลาได้ด้วย (อันนี้ก็ไม่แปลกอีก เพราะการทดลองในหัวข้อก่อนหน้านี้ที่เกี่ยวกับ ΔI, ΔL ล้วนใช้ความสามารถเปรียบเทียบความเข้มในโดเมนเวลา) อันที่จริงสัญญาณเสียงที่ไม่เปลี่ยนแปลงตามเวลาแทบจะไม่มีข้อมูลอะไรให้คนคนฟังเลย ผู้เขียนแทรกอารมณ์ขันในหนังสือตอนนี้ว่า ถ้าแกพูด "eeee" ยาวไปเรื่อย ๆ เราก็คงไม่ได้ข้อมูลอะไรจากแก นอกจากข้อมูลเกี่ยวกับสภาพจิตของแก การเปรียบเทียบความเข้มในโดเมนเวลาทำให้เราสามารถรู้การเปลี่ยนแปลงของสเปกตรัม ในบทที่ 11 จะกล่าวถึงความสำคัญอย่างยิ่งยวดของเรื่องนี้ต่อการรับรู้เสียงพูด และก็แน่นอนว่าการเปรียบเทียบความเข้มในช่วงเวลาสั้น ๆ จะมีความแม่นยำมากกว่า, make sense!


Create Date : 11 พฤษภาคม 2556
Last Update : 23 สิงหาคม 2556 15:01:29 น. 0 comments
Counter : 2112 Pageviews.

ชื่อ : * blog นี้ comment ได้เฉพาะสมาชิก
Comment :
  *ส่วน comment ไม่สามารถใช้ javascript และ style sheet
 
 Pantip.com | PantipMarket.com | Pantown.com | © 2004 BlogGang.com allrights reserved.