|
Frequency Selectivity
[สารบัญกลุ่มเรื่องที่กำลังศึกษา]
เนื้อหาตอนนี้ผมสรุปจากบทที่ 5 ในชื่อเดียวกัน หนังสือ The Sense of Hearing โดย Christopher J. Plack รายละเอียดบทที่ 2 - 4 ดูได้จากสารบัญกลุ่มเรื่องที่กำลังศึกษาตามลิงค์ด้านบนครับ ลำดับเนื้อหาตั้งแต่บทนี้เป็นต้นไปจะเรียงตามลำดับในหนังสือ ทำนองเดียวกับบทที่ 4
frequency selectivity คือ ความสามารถที่หูของเราแยกองค์ประกอบทางความถี่ที่แตกต่างกันของเสียงได้ ถ้าเปรียบเทียบกับการมองเห็นนะครับ ระบบการมองเห็นจะเป็นเหมือน place-to-place mapping คือ map หรือจับคู่แสงจากจุดต่าง ๆ ใน space กับตำแหน่งบนเรตินา ส่วนในระบบการรับรู้เสียง สิ่งแรกที่ทำคือ แยกองค์ประกอบความถี่ต่าง ๆ ของเสียงที่เข้ามาบน basilar membrane จึงเป็น frequency-to-place mapping นอกจากนี้ frequency selectivity ยังทำให้เราสามารถแยกเสียงที่เกิดขึ้นพร้อมกันได้ เช่น เราแยกได้ว่านี่เป็นเสียง double bass นี่เป็นเสียง piccolo ตอนที่สองเสียงนี้ถูกเล่นพร้อมกัน
Frequency Selectivity on the Basilar Membraneการทดลองของ von Békésy ที่ผมได้เล่าสรุปในตอนที่แล้วนั้น เป็นการดูพฤติกรรมของ cochlea โดยการผ่าตัดศพ และ von Békésy ต้องใช้ระดับเสียงสูงถึง 140 dB SPL ในการกระตุ้น แต่จากการศึกษาปัจจุบัน เช่น จากการผ่าตัดหนู chinchilla และสัตว์ทดลองที่ถูกวางยาสลบ พบว่า cochlea ทำงานดีกว่าที่เคยรู้จากการศึกษาของ von Békésy มาก ทั้งในแง่ bandwidth ของฟิลเตอร์ และการแพร่ของ traveling wave (ซึ่งก็ไม่เห็นจะน่าแปลกใจตรงไหนเลยใช่มั้ยครับ) นั่นเท่ากับพูดว่า ความสามารถในการจูนเสียงของ cochlea ขึ้นอยู่กับ physiological state ของสัตว์ ในการทดลองสมัยใหม่ โดยทั่วไปจะผ่าเปิด cochlea เพื่อสังเกต basilar membrane บริเวณใกล้ ๆ base และตรวจวัดการเคลื่อนที่ของ membrane จากการสะท้อนของแสงเลเซอร์ที่ตกกระทบพื้นผิวของลูกแก้วเล็ก ๆ ที่วางบน membrane เทคนิคนี้ใช้ดูผลตอบสนองของตำแหน่งบน basilar membrane เพียงตำแหน่งเดียว ไม่ได้ติดตามดูทั้ง traveling wave
 รูปซ้ายมือแสดงกราฟ iso-level ที่แต่ละเส้นบ่งบอกถึงอัตราเร็วของตำแหน่งตำแหน่งหนึ่งบน basilar membrane (และเป็นตำแหน่งที่มีความถี่ลักษณะเฉพาะ หรือ characteristic frequency เท่ากับ 10 kHz) ในโดเมนความถี่ของ pure tone ที่ระดับเสียงต่าง ๆ กัน ตั้งแต่ 20 dB SPL ถึง 90 dB SPL อัตราเร็วของ basilar membrane ในกราฟนี้เขียนในหน่วย dB เทียบกับ 1 ไมโครเมตร/วินาที หมายความว่า ถ้า basilar membrane มีอัตราเร็ว 1 μm/s มันจะถูกแทนด้วยอัตราเร็ว 0 dB ในสเกลนี้ กราฟที่เห็นมาจากการทดลองในหนู chinchilla
จากรูป จะเห็นว่า ยิ่งความถี่ของ pure tone เข้าใกล้ความถี่ที่มีการตอบสนองดีที่สุดของ basilar membrane ณ ตำแหน่งนั้น (เรียกว่า best frequency, ข้อควรระวัง อย่าเข้าใจว่า best freq. กับ characteristic freq. เป็นตัวเดียวกันนะครับ ค่ามันอาจจะเท่ากันก็ได้ นิยามของ characteristic frequency หรือ ความถี่ลักษณะเฉพาะคือ best frequency ที่ระดับความดันเสียงต่ำ) อัตราเร็วที่ตำแหน่งดังกล่าวก็จะยิ่งเพิ่มมากขึ้น พอความถี่ของ pure tone ออกห่างจาก best frequency การตอบสนองก็จะยิ่งน้อยลง แต่ละตำแหน่งบน basilar membrane ทำตัวเหมือน band-pass filter ที่ลดทอนองค์ประกอบความถี่ซึ่งอยู่ห่างจาก best frequency นอกจากนี้ รูปยังบอกแก่เราว่า ที่ระดับเสียงต่ำ ๆ นั้น basilar membrane แยกองค์ประกอบทางความถี่ที่แตกต่างกันได้ดีกว่าที่ระดับเสียงสูง ๆ เราจะเห็นว่าที่ระดับเสียงสูง ความกว้างของกราฟ iso-level จะกว้างขึ้น นั่นหมายความว่า แต่ละตำแหน่งจะตอบสนองต่อองค์ประกอบความถี่ในช่วงย่านที่กว้าง และ pure tone ตัวเดียว จะกระตุ้นตำแหน่งหลาย ๆ ตำแหน่งเป็นบริเวณกว้างบน basilar membrane ทำให้ traveling wave ครอบคลุมพื้นที่กว้างด้วย
รูปขวายังบอก best frequency ของตำแหน่งใด ๆ บน membrane จะมีค่าลดลง เมื่อระดับเสียงเพิ่มมากขึ้น รูปนี้ ระดับเสียงเพิ่มจาก 20 dB ไปจนถึง 90 dB SPL, best frequency ลดจาก 10 kHz ลงไปเหลือ 7 kHz ด้วยเหตุนี้ โดยทั่วไปแล้วคำว่าความถี่ลักษณะเฉพาะจะใช้อ้างถึง best frequency ในการตอบสนองที่ระดับเสียงต่ำ ผลสืบเนื่องจากการลด best frequency เมื่อระดับเสียงเพิ่มขึ้นคือ ทำให้จุดสูงสุดของ traveling wave เลื่อนไปยัง base ของ cochlea เราเรียกปรากฏการณ์ดังกล่าวว่า basalward shift (การเลื่อนไปทาง base) ของ traveling wave
ยังมีอีกวิธีที่สามารถใช้วัด frequency selectivity ของตำแหน่งใด ๆ บน basilar membrane นั่นคือ เปิดเสียงที่ความถี่แต่ละค่าเข้าหู แล้วหาระดับเสียงที่ทำให้ basilar membrane สั่น ตอนที่ความถี่ของ tone เข้าใกล้ best frequency ของตำแหน่งที่เราสนใจวัดอยู่นั้น ระดับเสียงจะต้องต่ำ ยิ่งเข้าใกล้ ยิ่งต่ำ เมื่อเราพล็อตกราฟความสัมพันธ์ระหว่างระดับเสียงที่ทำให้ basilar membrane สั่นกับความถี่ เราจะได้ tuning curve ดังรูปบนขวา สังเกต ที่ระดับเสียงต่ำ เส้นกราฟฝั่งความถี่สูงของ tuning curve จะดูลึกและชัน tuning curve อาจถือว่าเป็นรูปพลิกตั้งของกราฟฟิลเตอร์
สำหรับรูปด้านล่างแสดง iso-level กับ tuning curve ที่วัดใกล้ ๆ apex (แต่เป็นการวัดที่ tectorial membrane นะครับ) ณ ตำแหน่งที่มีความถี่ลักษณะเฉพาะ 500 Hz คงเห็นได้ไม่ยากว่า bandwidth ของฟิลเตอร์ในหน่วย Hz ที่ apex จะแคบกว่าที่ base
 จากความรู้เกี่ยวกับการตอบสนองต่ออิมพัลซ์ของฟิลเตอร์ ฟิลเตอร์ที่มี bandwidth แคบจะสั่นนานกว่า ฟิลเตอร์ที่มี bandwidth กว้าง หมายความว่า ถ้าหูได้ยินเสียงคลิกหนึ่งทีสั้น ๆ ตำแหน่งตรงที่อยู่ใกล้ apex ซึ่งมี bandwidth แคบจะสั่นนานกว่า (หลายสิบมิลลิวินาที) ขณะที่ตำแหน่งใกล้ base ซึ่งมี bandwidth กว้างกว่าจะสั่นแป๊ปเดียว ดังรูป
 รูปแสดงการสั่นของ 3 ตำแหน่งบน basilar membrane ตัวเลขความถี่ที่ระบุขวามือคือความถี่ลักษณะเฉพาะของแต่ละตำแหน่ง คาบการสั่นของ membrane เท่ากับคาบของ pure tone ที่ความถี่ลักษณะเฉพาะนั้น
เมื่อย้อนกลับไปมองรูปแรกอีกที เราจะเห็นสมบัติความไม่เป็นเชิงเส้น (non-linearity) ที่ base ของ basilar membrane อย่างเด่นชัด เพราะในระบบเชิงเส้นนั้น แอมปลิจูดของ output จะต้องเป็นค่าคงที่เท่าของ input ไม่ว่า input จะมีระดับเท่าไรก็ตาม รูปด้านล่างแสดงอัตราเร็วของ basilar membrane ที่เปลี่ยนไปตามระดับของ input ณ จุดที่มีความถี่ลักษณะเฉพาะ 10 kHz

ในระบบเชิงเส้น กราฟแสดงความสัมพันธ์ระหว่าง output กับ input บนสเกล dB จะต้องเป็นเส้นตรงที่มีความชันเท่ากับ 1 (ดูบทที่ 3) แต่จากรูป เราจะเห็นว่า การตอบสนองของ basilar membrane ค่อนข้างเป็นเชิงเส้นเฉพาะกรณีที่ความถี่ของสัญญาณกระตุ้นต่ำกว่าความถี่ลักษณะเฉพาะ (CF) แต่ที่ความถี่สูงกว่านั้น ความชันของกราฟจะลดลง อันเป็นลักษณะของระบบที่มีการบีบอัด (compressive system) กล่าวคือ ระดับของ input เพิ่มขึ้น 10 dB อาจทำให้ output เพิ่มขึ้นแค่ 2 dB การบีบอัดนี้มีความสำคัญนะครับ เพราะมันทำให้เราสามารถใช้ acoustic information ได้ในช่วงระดับเสียงที่กว้าง และก็เช่นเดียวกับสมบัติ frequency selectivity สมบัติความไม่เป็นเชิงเส้นของ basilar membrane ขึ้นอยู่กับสถานะทางกายภาพของสัตว์ รูปด้านล่างแสดงกราฟเปรียบเทียบกรณีสัตว์เป็นกับสัตว์ตาย เห็นว่า หลังจากตายแล้ว ความเป็นเชิงเส้นเพิ่มขึ้น และการตอบสนองก็ยากขึ้น
 การวัดโดยตรงส่วนใหญ่ทำที่ base ใกล้หน้าต่างวงรี เพราะผ่าตัดง่าย แต่กระนั้น การทดลองที่ทำทางฝั่ง apex ก็มีนะครับ และพบว่า basilar membrane มีการตอบสนองแบบเชิงเส้นมากกว่าที่ base ถึงแม้จะมีลักษณะบีบอัดเหมือนกัน แต่มากสุดก็แค่ 2:1 นอกจากนี้ การบีบอัดแถว ๆ apex ไม่ได้มีผลกระทบแค่กับความถี่ใกล้ ๆ ความถี่ลักษณะเฉพาะของตำแหน่งนั้น (ดังเช่นบริเวณ base) แต่ส่งผลกับความถี่ input ในย่านกว้าง
ความไม่เป็นเชิงเส้นของ cochlea ยังก่อให้เกิดผลสืบเนื่องสำคัญอีก 2 ประการ (1) suppression หรือ การข่มทับ หมายถึง เหตุการณ์ที่ basilar membrane ลดการตอบสนองต่อองค์ประกอบความถี่ตัวหนึ่งเมื่อมีองค์ประกอบความถี่อีกตัวหนึ่งโผล่เข้ามา ตัวอย่างเช่น ผมเล่น pure tone 1 kHz 40 dB SPL การตอบสนองของตำแหน่งบน basilar membrane ต่อ tone นี้อาจลดลงถ้าผมเล่น pure tone 1.3 kHz 60 dB SPL เพิ่มเข้าไปอีกตัว อันนี้เห็นชัดเจนว่าเป็นพฤติกรรมที่ไม่เป็นเชิงเส้น (2) distortion หรือ ความผิดเพี้ยน ทั้งนี้เพราะระบบที่ไม่เป็นเชิงเส้นจะผลิตองค์ประกอบความถี่ที่ไม่มีใน input ออกมาให้ที่ output ในหูปกติสมบูรณ์นั้น จะมีความไม่เป็นเชิงเส้นสูงและทำให้เกิด distortion มาก โดยเฉพาะอย่างยิ่ง inter-modulation distortion ซึ่งเกิดขึ้นเมื่อองค์ประกอบตั้งแต่สองตัวขึ้นไปมีปฏิสัมพันธ์กันที่ตำแหน่งใดตำแหน่งหนึ่งบน basilar membrane แน่นอน องค์ประกอบเหล่านี้จะต้องอยู่ไม่ห่างกันเพื่อให้พวกมันตกอยู่ในช่วงความถี่ที่จะถูกบีบอัดโดยตำแหน่งเดียวบน membrane เมื่อเกิดความผิดเพี้ยนแบบนี้ขึ้น เราจะพูดว่ามีการสร้าง combination tone ขึ้นมา โดย combination tone ตัวนี้นะครับจะแพร่กระจายหรือเดินทางจากจุดที่มันถูกสร้าง ไปกระตุ้นตำแหน่งบน basilar membrane ที่มีความถี่สอดรับ (หรือเป็นความถี่ลักษณะเฉพาะ) ของ combination tone และในบางครั้ง เราก็ได้ยินเสียงนี้ชัดเจนเสียด้วย ทั้ง suppression และ distortion เป็นสมบัติของหูที่มีสุขภาพดี และสมบัติดังกล่าวจะสูญหายไปถ้า cochlea เสื่อมหรือถูกทำร้ายทำลาย ฟังดูเป็นเรื่องตลกนะครับ หูดี ๆ ทำให้เกิดการผิดเพี้ยนมากกว่าหูที่ไม่ดี
นั่นคือ หูที่มีสภาพไม่ดี (= การตอบสนองของ basilar membrane เป็นเชิงเส้น และ tuning curve แผ่กว้าง) จะให้ผลการคัดแยกความถี่คล้ายกับหูดี ๆ ที่ระดับความดันเสียงมีค่าสูง ๆ โดยเฉพาะในแง่ที่ว่า tuning curve ของทั้งสองกรณีกว้างเหมือนกัน สำหรับหูที่มีสุขภาพดีนั้น tuning curve ที่ระดับเสียงต่ำถึงกลางจะมีลักษณะลึกแคบเป็นตัว V และการตอบสนองต่อ tone ที่ความถี่ใกล้ความถี่ลักษณะเฉพาะเกือบเป็นเชิงเส้นที่ระดับเสียงต่ำ (โน้ต: คำว่าระดับเสียงสูงหรือระดับเสียงต่ำ ไม่ได้เกี่ยวกับเสียงสูง-เสียงต่ำนะครับ แต่หมายถึง ระดับเสียง หรือ sound level ที่มีค่าสูงหรือค่าต่ำ ความดันมากหรือความดันน้อย อันที่จริงบริบทมันทำให้คิดถึงเสียงสูง-เสียงต่ำไม่ได้อยู่แล้วล่ะ แต่อยากย้ำกันมึน) แต่จะมีการบีบอัดอย่างมากที่ระดับเสียงสูง นอกจากนี้ ในการจูนของตำแหน่งบน basilar membrane ที่อยู่ใกล้ ๆ base จะมี best frequency (หรือ ความถี่เรโซแนนต์) สูงกว่าที่ระดับเสียงต่ำเมื่อเทียบกับที่ระดับเสียงสูง
เราพูดจะว่าการตอบสนองของหูที่มีสุขภาพไม่ดีนั้น เป็นการตอบสนองแบบ passive ของ basilar membrane ดังที่เคยวัดได้โดย von Békésy (เพราะ von Békésy ผ่าตัด cochlea จากศพในการทำการทดลอง) ลักษณะดังกล่าวเป็นผลมาจากสมบัติเชิงกลพื้นฐานของ cochlea โดยเฉพาะอย่างยิ่งสมบัติความแข็งทื่อที่แตกต่างกันตลอดทั้งสาย membrane จึงทำให้เหมือนกับมี "อะไรบางอย่าง" เพิ่มเข้ามาในหูที่สุขภาพดีที่รับผิดชอบต่อ หรือส่งผลกระทบต่อ การเคลื่อนไหวของ basilar membrane ที่ base และ "อะไรบางอย่าง" นั้นจะต้องทำหน้าที่เหมือนตัวขยายที่ขึ้นอยู่กับระดับและความถี่ (level- and frequency-dependent amplification) ของการตอบสนองของ basilar membrane เสียงระดับต่ำจะถูกขยาย ในขณะที่เสียงระดับสูงไม่ถูกขยาย และการขยายหรือ gain นี้ จะเกิดขึ้นกับความถี่ที่ใกล้ความถี่ลักษณะเฉพาะของแต่ละตำแหน่งบน basilar membrane ทีนี้ ความถี่ลักษณะเฉพาะตรงบริเวณ base ของ cochlea จะสูงกว่า best frequency ทำให้จุดหักมุมของ tuning curve เลื่อนไปทางความถี่ต่ำกว่า
สมมติ คุณมีฟิลเตอร์ที่มี bandwidth กว้างอยู่ตัวหนึ่ง และอยากทำให้ bandwidth แคบลง เพราะคุณต้องการเอาเฉพาะความถี่ที่ใกล้เคียงกับความถี่ศูนย์กลางของฟิลเตอร์ จะทำยังไงครับ? คำตอบ โดยทั่วไปมี 2 วิธี (1) เพิ่มการลดทอนขององค์ประกอบความถี่ที่อยู่ห่างจากความถี่ศูนย์กลาง หรือ (2) ขยายองค์ประกอบความถี่ที่อยู่ใกล้ความถี่กลาง และวิธีที่ 2 นี่แหละที่ cochlea เลือกใช้ แต่กระนั้น ความถี่ที่ได้รับการขยายจะสูงกว่าความถี่กลางของฟิลเตอร์ตัวเดิม (คำว่า ตัวเดิม ในที่นี้คือ passive basilar membrane) และเนื่องจากไม่มีการขยายที่ระดับเสียงสูง ความถี่กลางของฟิลเตอร์จะปรับลงลงมาเท่ากับกรณี passive
 จากรูป เส้นล่างเป็นกรณี passive (อาจจะเป็นกรณีหูสุขภาพไม่ดี หรือหูสุขภาพดีแต่ถูกกระตุ้นที่ระดับเสียงสูงก็ได้) เส้นบนคือกรณี active (หูที่มีสุขภาพดีและกระตุ้นที่ระดับเสียงต่ำ) รูปซ้ายแสดงให้เห็นการขยายการเคลื่อนที่ของ basilar membrane ที่ความถี่ที่สูงกว่าความถี่กลางของหูแบบ passive สำหรับรูปขวาแสดงให้เห็นว่า ค่า gain จะสูงกว่าที่ระดับความดันของ input ต่ำกว่า พูดอีกอย่างว่า gain ค่อย ๆ ลดลงเมื่อระดับ input เพิ่มขึ้น
เราเชื่อว่า outer hair cell เป็นตัวการสำคัญในกระบวนการขยายนี้ ทฤษฎีปัจจุบันบอกว่า outer hair cell ตอบสนองต่อการสั่นของ basilar membrane โดยการยืดหรือหดด้วยอัตราเดียวกับความถี่ของเสียงกระตุ้น เฉกเช่นการผลักชิงช้าถูกจังหวะเวลา การยืดหดนี้อาจช่วยให้ basilar membrane สั่นมากขึ้นเมื่อได้รับการกระตุ้นจาก tone ที่มีความถี่ใกล้ความถี่ลักษณะเฉพาะ ค่า gain สูงสุดอาจสูงถึง 50 dB แต่ก็ไม่ใช่ทุกระดับ input (เพราะมันไม่เป็นเชิงเส้น) เป็นไปได้ว่า outer hair cell อาจไม่สามารถตอบสนองได้เพียงพอที่ระดับเสียงสูง จึงทำให้ gain ลด และได้ผลลัพธ์เป็นการตอบสนองแบบบีบอัดต่อ tone ที่ความถี่ลักษณะเฉพาะ และทำให้ tuning curve กว้าง
จากผลงานตีพิมพ์ปี 2000 ของ Zheng และคณะ เราสามารถระบุตัวการรับผิดชอบต่อการเปลี่ยนแปลงความยาวของ outer hair cell ได้แล้วนะครับ นั่นคือ โปรตีนชื่อ prestin ในเยื้อหุ้มเซลล์ของ outer hair cell ซึ่งโปรตีนตัวนี้จะเปลี่ยนรูปร่างของมันตามการเปลี่ยนแปลงศักดาไฟฟ้าของเซลล์ (ดูบทที่ 4) รูปร่างของ prestin ที่เปลี่ยน จะทำให้ความยาวของ outer hair cell เปลี่ยน และอาจทำให้การเคลื่อนที่ของ basilar membrane เปลี่ยน ทำให้เกิดการขยาย
outer hair cell บอบบางต่อการบาดเจ็บทางกายภาพมากครับ การทดลองเรื่องนี้ในสัตว์จึงต้องใช้ความระมัดระวังอย่างยิ่งยวด เพื่อไม่ให้มันถูกทำลาย และอยู่ในสภาพที่ดี เพื่อการตอบสนองของ cochlea ที่ถูกต้อง ยาอ่อน ๆ อย่างแอสไพรินก็มีฤทธิ์ยับยั้งการทำงานของ outer hair cell ชั่วคราวได้ นอกจากนี้ ถ้าเจอกับเสียงดังมาก ๆ มันก็ถูกทำลายได้ง่าย พังแล้วพังเลย ไม่มีทดแทน คนเราพอแก่ตัว การทำงานของ outer hair cell ก็ค่อย ๆ เสื่อมไป เชื่อกันว่า การทำงานผิดปกติของ outer hair cell นี่แหละที่ทำให้หูตึง สูญเสียความสามารถในการได้ยิน นอกจากนี้ outer hair cell ยังสามารถถูกควบคุมโดยใยประสาทจากสมองได้ด้วย
ประเด็นสุดท้ายก่อนขึ้นหัวข้อใหม่คือ otoacoustic emission คำว่า oto- แปลว่า หู, otoacoustic emission หมายถึง การให้กำเนิดเสียงจากหู อันนี้เป็นการค้นพบปลายช่วงทศวรรษ 1970 โดย Kemp ว่าหูคนเรานี่นะครับ สามารถปล่อยเสียงได้ด้วย ตอนแรกก็ไม่มีใครเชื่อ แต่เดี๋ยวนี้ได้รับการยืนยันอย่างดี แถมยังนำมาใช้ประโยชน์ในการตรวจสอบเบื้องต้นว่าหูเด็กทารกมีปัญหาผิดปกติอะไรรึเปล่า เพราะการสร้างเสียงโดยหูเป็นลักษณะข้อหนึ่งของหูที่มีสุขภาพดี ถ้าเราเล่นเสียงอิมพัลซ์หรือเสียงคลิกป้อนเข้าหู หูอาจจะสร้างเสียงที่มีองค์ประกอบความถี่บางค่ากลับออกมาให้ แบบนี้เรียก cochlear echoes และการสร้างเสียงดังกล่าวเกิดจากกระบวนการใน cochlea ทีนี้ ถ้ามี pure tone มากกว่าหนึ่งตัวเป็น input เสียงที่หูสร้างอาจประกอบด้วย distortion ของ combination tone การสร้างเสียงแบบนี้เรียกว่า distortion product otoacoustic emission แถมพลังงานที่ปล่อยออกมาอาจมากกว่าพลังงานของเสียงกระตุ้นได้ด้วย ซึ่งนี่ก็เป็นหลักฐานสนับสนุนการทำงานด้านขยาย (amplification) ชั้นดี ยังมีบางครั้งที่หูสร้าง pure tone ขึ้นมาเองโดยไม่ต้องมี input เรียกว่า spontaneous otoacoustic emission และนี่อาจเป็นผลจากการทำงานของ outer hair cell ที่ตำแหน่งใดตำแหน่งหนึ่งบน basilar membrane และก็เป็นไปได้เช่นกันครับที่ spontaneous emission จะดังพอให้คนอื่นได้ยิน
Neural Frequency Selectivityนักวิทยาศาสตร์สามารถยัดไมโครอิเล็กโทรดเข้าไปในเส้นประสาทของสัตว์ทดลองหรือหนู chinchilla เพื่อดูกิจกรรมที่เกิดขึ้นภายในเส้นใยใด ๆ ได้นะครับ และพบว่า เส้นใยแต่ละเส้นจะมีสมบัติการจูนความถี่แทบจะเหมือนกับสมบัติการจูนของตำแหน่งบน basilar membrane ที่มันยึดติดอยู่ นั่นคือ เส้นใยจะตอบสนองต่อ pure tone ที่ความถี่ลักษณะเฉพาะด้วย firing rate สูง และ firing rate จะต่ำลง เมื่อความถี่ของ pure tone เลื่อนออกห่างจากความถี่ลักษณะเฉพาะ
 รูปนี้แสดง frequency threshold tuning curve กราฟสร้างจากการหาระดับของ pure tone ในโดเมนความถี่ ที่ทำให้ firing rate ของนิวรอนเพิ่มขึ้นในระดับที่เริ่มวัดได้ ซึ่งกราฟจะสมมูลกับ tuning curve ของ basilar membrane จากรูปเป็น tuning curve ของนิวรอน 5 ตัว จากเส้นประสาทรับรู้เสียงของหนู chinchilla ทางซ้าย เราพล็อตความถี่แบบเชิงเส้น จะเห็นว่า bandwidth กว้างขึ้นเมื่อ ความถี่ลักษณะเฉพาะมากขึ้น ส่วนทางขวาพล็อตบนสเกล logarithm จะเห็นว่า bandwidth เมื่อเทียบกับความถี่ลักษณะเฉพาะ จะแคบลงเมื่อความถี่ลักษณะเฉพาะเพิ่มขึ้น
จากบทที่ผ่านมา เราได้พูดถึงการตอบสนองต่อ pure tone ที่ความถี่ลักษณะเฉพาะของเส้นใยประสาทกลุ่มที่มี spontaneous rate สูงว่า ฟังก์ชั่น rate-level ของมันจะชันกว่า และอิ่มตัวที่ระดับเสียงต่ำกว่ากลุ่มที่มี spontaneous rate (sr) ต่ำ (ดูหัวข้อ Activity in the Auditory Nerve ในบทที่ 4) ข้อแตกต่างสำคัญระหว่างใยประสาทสองกลุ่มนี้คือ กลุ่ม sr สูงจะมีความอ่อนไหว (sensitive) มากกว่ากลุ่ม sr ต่ำอย่างมาก ดังนั้นพวกมันจึงตอบสนองต่อการเคลื่อนไหวของ basilar membrane ที่ระดับที่ฟังก์ชั่นการตอบสนองของ basilar membrane เป็นเชิงเส้น (นั่นคือ ส่วนระดับเสียงต่ำที่ชันของฟังก์ชั่น, หากดูรูป rate-level function บทที่ 4 ส่วนดังกล่าวคือส่วนชัน ๆ ทางซ้ายมือในช่วงประมาณ 25 - 40 dB SPL) ณ บริเวณระดับเสียงต่ำนี้ การสั่นของ basilar membrane จะเพิ่มขึ้นอย่างรวดเร็วเมื่อระดับของ input เพิ่ม ทำให้ firing rate ในเส้นใยประสาทเพิ่มขึ้นอย่างรวดเร็วตามระดับ input ด้วย ด้วยเหตุนี้แหละครับ firing rate ที่นิวรอนอิ่มตัวถึงได้อยู่ที่ระดับต่ำ
เส้นใยกลุ่ม sr ต่ำมีความอ่อนไหวน้อยกว่า ทำให้ช่วงกว้างของระดับที่มันอ่อนไหวนั้นตกอยู่ในบริเวณที่มีการบีบอัดของฟังก์ชั่นตอบสนองของ basilar membrane ฉะนั้น การเปลี่ยนแปลงระดับ input จึงก่อให้เกิดการเปลี่ยนแปลงน้อยนิดที่ระดับ output ทำให้ firing rate ในเส้นใยประสาทเปลี่ยนไปแค่นิดเดียว ฟังก์ชั่น rate-level ของมันจึงดูแบน ๆ ตื้น ๆ และไปอิ่มตัวเอาที่ระดับ input สูง ๆ
 รูปนี้แสดง firing rate ในใยประสาทรับรู้เสียงกลุ่ม sr ต่ำของสัตว์ทดลองที่ความถี่ลักษณะเฉพาะ 20 kHz เมื่อเสียงกระตุ้นคือ pure tone ที่ความถี่ 20 kHz และ 17 kHz เห็นว่าที่ 20 kHz ความชันของฟังก์ชั่น rate-level ต่ำกว่าเมื่อเทียบกับที่ความถี่กระตุ้นต่ำกว่าความถี่ลักษณะเฉพาะ ทั้งนี้เพราะ ฟังก์ชั่น rate-level ของมันขึ้นอยู่กับสมบัติความไม่เป็นเชิงเส้นของ cochlea นั่นคือ ฟังก์ชั่นนี้จะต้องตอบสนองต่อ tone ที่ความถี่ต่ำกว่าความถี่ลักษณะเฉพาะอย่างค่อนข้างเป็นเชิงเส้นมากกว่า อันที่จริง จากการตั้งสมมติฐานว่า การตอบสนองต่อ tone ที่ความถี่ต่ำกว่าความถี่ลักษณะเฉพาะเป็นการตอบสนองแบบเชิงเส้นนี่แหละครับ ที่ทำให้ Yates, Winter กับ Robertson (1990) สามารถใช้ฟังก์ชั่น rate-level ของใยประสาทที่ตอบสนองต่อ tone ที่ความถี่ต่ำกว่าหรือเท่ากับความถี่ลักษณะเฉพาะ ในการย้อนกลับไปสร้างการตอบสนองของ basilar membrane ต่อ tone ที่ความถี่ลักษณะเฉพาะได้ ประเด็นคือ rate-level function สะท้อนถึง ฟังก์ชั่นตอบสนองของ basilar membrane
เราได้พูดถึง suppression อันเป็นผลสืบเนื่องจาก non-linearity ใน cochlea จากหัวข้อที่แล้ว ก่อนจบหัวข้อนี้ เราจะพูดถึงการดูหรือการวัด suppression จากการตอบสนองของเส้นประสาทรับรู้เสียง ทำได้โดย วัด firing rate ของใยประสาทเส้นหนึ่งที่ตอบสนองต่อ pure tone ระดับเสียงต่ำที่ความถี่ลักษณะเฉพาะของใยเส้นนั้น ต่อมา เพิ่ม pure tone เข้าไปอีกตัว ถ้า pure tone ตัวที่สองตกอยู่ภายใน tuning curve ของเส้นใยประสาท มันก็จะทำให้ firing rate เพิ่มขึ้น แต่มีบางค่าระดับและบางความถี่ของ pure tone ตัวที่สองที่อยู่นอก tuning curve ที่จะทำให้ firing rate ในเส้นใยที่เรากำลังวัดลดลง ดังรูป
 รูปนี้แสดง two-tone suppression ในเส้นประสาท เส้นสีดำเข้มคือ tuning curve ของเส้นใยประสาทที่ความถี่ลักษณะเฉพาะ 8 kHz จุดสามเหลี่ยมคือ pure tone อันแรก เมื่อไรก็ตามที่มี pure tone ตัวที่สองอยู่ในพื้นที่แรเงา การมีอยู่ของตัวที่สองนี้จะทำให้ firing rate ของเส้นใยที่ cf = 8 kHz ลดลงอย่างน้อย 20%
Psychophysical Measurementsที่ผ่านมา เราได้เรียนรู้ความสามารถแยกองค์ประกอบความถี่ของ basilar membrane คำถามคือ อะไรเป็นผลสืบเนื่องจาก frequency selectivity ในแง่ของการรับรู้ (perception) คำตอบหนึ่งคือ มันทำให้เราสามารถได้ยินองค์ประกอบความถี่หนึ่งแบบแยกออกมาจากองค์ประกอบความถี่อื่นเมื่อองค์ประกอบเหล่านั้นผสมอยู่รวมกันได้ สมมติว่าผมเปิด noise ที่มีช่วงความถี่ 1 kHz - 1.2 kHz ให้คุณฟัง ต่อมา ผมเพิ่ม tone ความถี่ 2 kHz ที่ระดับต่ำกว่าระดับของ noise ถึง 20 dB กรณีนี้ คุณได้ยิน tone สบาย ๆ เพราะมันแยกจาก noise บน basilar membrane พวกมันเป็นเสียงสองเสียงที่กระตุ้น basilar membrane กันคนละที่ แต่ถ้าผมเปลี่ยนเป็น tone 1.1 kHz คุณจะไม่ได้ยินเสียงมันเลย เราพูดว่า tone ถูก mask โดย noise เพราะว่า noise ได้พรางไม่ให้เรารับรู้การมีอยู่ของ tone การพราง (masking) แบบนี้จะเกิดขึ้นเมื่อไรก็ตามที่กิจกรรมบน basilar membrane เนื่องจากเสียงเสียงหนึ่ง (เป็น masker) อำพรางหรือทำให้เราไม่รับรู้กิจกรรมของเสียงอีกเสียงหนึ่ง (เป็น signal) ที่เราพยายามจะฟัง ถ้า masker และ signal มีความถี่ห่างกัน masker จะต้องมีความดันสูงกว่า signal มากหากคิดจะพรางมันให้ได้ แต่ถ้า masker กับ signal มีความถี่ใกล้ ๆ กัน masker ก็ต้องการความดันมากกว่า signal แค่ไม่กี่ dB
ที่ผ่านมา เราวัด frequency selectivity โดยใช้เทคนิคทางสรีระหรือทางกายภาพในการศึกษาในสัตว์อื่นที่ไม่ใช่คน สำหรับคน เราใช้เทคนิคทาง psychophysical อย่าง masking ในการวัด frequency selectivity ได้ครับ ตัวอย่าง เราป้อน pure tone ที่ระดับค่อนข้างต่ำ เช่น 10 dB เหนือขีดเริ่มการได้ยิน (เราเรียกระดับนี้ว่า 10-dB sensation level) ต่อมา ป้อน noise ย่านความถี่แคบหรือ pure-tone masker ที่ความถี่ค่าหนึ่ง แล้วค่อย ๆ เพิ่มระดับเสียงของ masker ขึ้นกระทั่งผู้ฟังไม่สามารถได้ยิน pure tone ตัวแรก ทำซ้ำเช่นนี้โดยเปลี่ยนความถี่ของ masker ไปเรื่อย ๆ แล้วพล็อตกราฟระดับความดันที่เริ่มเกิด masking ในโดเมนความถี่ของ masker จะได้ psychophysical tuning curve
psychophysical tuning curve จะแสดงรูปร่างของ band-pass filter ที่มีความถี่กลางเท่ากับความถี่ของสัญญาณ pure-tone ตัวแรก เราจะเห็นว่าหน้าตามันก็เหมือน ๆ กับ basilar membrane tuning curve และ neural tuning curve
 รูปข้างบนนี้เป็นการทดลองที่ lab ของผู้เขียนเองนะครับ psychophysical tuning curve ที่ 4 kHz โดยให้ masker เกิดก่อน signal ตามช่วงเวลาที่เห็น จาก 20 ms ถึง 100 ms อันนี้เรียกว่า forward masking (รายละเอียดจะพูดในบทที่ 8) เห็นว่าถ้าช่วง gap ระหว่าง masker กับ signal ยิ่งนาน ระดับเสียงของ masker ก็ต้องยิ่งมากตามไปด้วย สังเกตว่า เมื่อระดับเพิ่มขึ้น tuning curve จะกว้างขึ้น (= สมบัติ frequency selectivity ลดลง) และจุดหักมุมของ tuning curve (จุดนี้คือจุดที่เป็น best frequency) จะเลื่อนลดความถี่ลง ทำนองเดียวกับ basilar membrane tuning curve
ผู้เขียนเล่าว่าเทคนิคที่ได้อธิบายไปนั้นเป็นเพียงหนึ่งในหลาย ๆ เทคนิค และผลลัพธ์ที่ได้จากทุกเทคนิคก็สอดคล้องกันทั้งหมด ในส่วนต่อมา ผู้เขียนอธิบายเทคนิคของ Patterson (1976) ซึ่งว่าเป็นเทคนิคที่ใช้ในการประมาณรูปร่างของฟิลเตอร์ที่ได้รับความนิยมสูงสุด เรียก notched-noise technique ในเทคนิคนี้ pure-tone signal จะมาคู่กับ noise สองตัว ตัวหนึ่งความถี่สูงสุดของมันต่ำกว่าความถี่ของ tone ส่วนอีกตัวหนึ่ง ความถี่ต่ำสุดของมันสูงกว่าความถี่ของ tone โดย noise สองตัวนี้จะทำหน้าที่เป็น masker นั่นคือ tone จะอยู่ระหว่างช่องว่าง (spectral notch) ของ noise ดังรูป
 พื้นที่แรเงาสีดำแปรผันตามพลังงานของ noise ที่ผ่านฟิลเตอร์ที่ความถี่กลางเท่ากับความถี่ของ signal ถ้าความกว้างของ spectral notch เพิ่ม noise ที่ผ่านก็จะลดลง และ signal ถูกตรวจจับได้ง่ายขึ้น โดยทั่วไป signal จะปรากฏพร้อม ๆ ในเวลาเดียวกับ noise นะครับ แต่มันก็อาจจะปรากฏหลังจาก noise ในกรณีที่เราต้องการสำรวจ forward masking ก็ได้เหมือนกัน ระดับต่ำสุดที่ตรวจจับได้ของ signal (เรียก signal threshold) ถูกกำหนดให้เป็นฟังก์ชั่นของช่องว่างสเปกตรัม (spectral gap) ระหว่าง signal กับขอบของ noise แต่ละตัว ถ้าแถบของ noise อยู่ใกล้กับ signal จะทำให้พลังงานของ noise ปริมาณมากผ่านฟิลเตอร์ที่มีความถี่กลางเท่ากับความถี่ของ signal และ signal threshold จะมีค่าสูง แต่ถ้า spectral notch เพิ่ม ค่า threshold ดังกล่าวจะลดลง ฉะนั้น เราสามารถประมาณรูปร่างหน้าตาของฟิลเตอร์ได้ด้วยการดู signal threshold ที่เปลี่ยนแปลงไป เมื่อ spectral notch เปลี่ยนแปลง
ข้อดีของวิธีที่ให้ signal อยู่ระหว่าง noise สองตัวคือ คือ มันจำกัดความเป็นไปได้จากกรณีการฟังแบบ off-frequency ให้ลดต่ำลง (การฟังแบบ off-frequency คือ สถานการณ์ที่ผู้ฟังตรวจจับสัญญาณได้ด้วยฟิลเตอร์ที่จูนสูงหรือต่ำกว่าความถี่ของสัญญาณ) ข้อเสียของ off-frequency คือ มันอาจทำให้เราประมาณ sharpness ของการจูนมากเกินจริง
จากการทดลอง masking ด้วยเทคนิค notched-noise ดังกล่าว ทำให้ Glasberg กับ Moore (1990) ได้ประมาณ ERB สำหรับฟิลเตอร์ (ในหน่วย Hz) ว่าเป็นไปตามสมการ
ERB = 24.7(0.00437 fc + 1)
เมื่อ fc คือ ความถี่ศูนย์กลางของฟิลเตอร์ (ในหน่วย Hz) เมื่อมองตามสมการนี้ สำหรับความถี่ที่มากกว่า 1 kHz เราจะพบว่าโดยประมาณแล้ว ค่า ERB แปรผันตรงกับความถี่กลาง (เท่ากับพูดว่า Q เป็นค่าคงที่ เพราะ Q = fc/bandwidth) และมีค่าประมาณ 11% ของความถี่กลางที่ความถี่สูง ๆ สมการนี้ไม่เป็นจริงที่ระดับเสียงสูงนะครับ นอกจากนี้ หลักฐานใหม่ ๆ ยังบอกว่าฟิลเตอร์ที่ความถี่สูงและระดับเสียงต่ำอาจจะมีความคม (sharpness) กว่าที่เคยคิดกัน ยังมีจุดอ่อนอีกประการในสมการของ Glasberg กับ Moore เนื่องจากพวกเขาใช้ simultaneous masking (= masker กับ signal ปรากฏพร้อม ๆ กัน) ทำให้ผลจาก masking บางส่วนอาจเกิดจากการ suppression แต่ถ้าเราใช้ forward masking จะไม่เกิด suppression เพราะ masker กับ signal ไม่ได้ปรากฏพร้อมกันทางกายภาพบน basilar membrane กรณีเปลี่ยนไปใช้ forward masking เราจะได้ tuning curve ที่คมขึ้นที่ระดับเสียงต่ำ และ ERB อาจมีค่าเพียง 5% ของความถี่กลางที่ 8 kHz
ประเด็นสุดท้ายที่ผู้เขียนพูดถึงในบทนี้คือ excitation pattern (รูปแบบการกระตุ้น) อย่าลืมว่าตอนนี้เรามอง cochlea เหมือนกับ bank ของ band-pass filter ที่มีย่านความถี่ผ่านซ้อนทับกัน, excitation pattern ก็คือการพล็อต output ของฟิลเตอร์แต่ละตัวในโดเมนของความถี่กลางของมัน
 รูปบนซ้ายแสดง สเปกตรัมของ pure tone ความถี่ 1 kHz 80 dB SPL รูปบนขวาแสดง excitation pattern ของ pure tone ตัวเดียวกันที่ระดับ 40 60 และ 80 dB SPL สังเกตว่าจุดสูงสุดของ excitation pattern ไม่ได้เพิ่มขึ้นมากนักตามระดับ input ที่เพิ่มขึ้นมาก ทั้งนี้เพราะ basilar membrane บีบอัดที่ความถี่ลักษณะเฉพาะเท่ากับความถี่ของ tone แต่ที่ความถี่ลักษณะเฉพาะสูงกว่าความถี่ tone การตอบสนองของ basilar membrane ค่อนข้างเป็นเชิงเส้น ส่วนรูปล่างแสดงกรณีสระ /i/ ("ee") สังเกตว่า ฮาร์มอนิกส์ไม่กี่ตัวแรกของสระเท่านั้นจะที่สร้างจุดยอดที่แยกเป็นลูก ๆ (bumps) ใน excitation pattern ทั้งนี้เพราะ ระยะห่างระหว่างฮาร์มอนิกเป็นค่าคงที่ แต่ฟิลเตอร์กว้างขึ้น ๆ เมื่อความถี่เพิ่มมากขึ้น ขณะที่ฟิลเตอร์ซึ่งมีความถี่กลางอยู่ระหว่างฮาร์มอนิกส์สองตัว จะมี output ต่ำกว่า เพราะฮาร์มอนิกส์จะถูกลดทอนโดยฟิลเตอร์ตัวนั้น ส่วนที่ความถี่สูง ฮาร์มอนิกส์หลาย ๆ ตัวตกอยู่ในฟิลเตอร์แต่ละตัว การเปลี่ยนแปลงของความถี่กลางจึงส่งผลกระทบน้อยนิดต่อระดับ excitation มันจึงดูเป็นลูกเดียวใหญ่ ๆ แทนที่จะเป็นหลายลูกเล็ก ๆ เหมือนกรณีความถี่ต่ำ นั่นคือ ระบบการรับรู้เสียงสามารถแยกฮาร์มอนิกส์ต่ำกว่าใน complex tone ได้ แต่ไม่สามารถแยกฮาร์มอนิกส์ที่สูงกว่าได้
Create Date : 09 พฤษภาคม 2556 |
Last Update : 23 สิงหาคม 2556 14:57:59 น. |
|
0 comments
|
Counter : 3820 Pageviews. |
 |
|
|
| |
|