Judgment of Perceptual Synchrony Between Two Pulses and Its Relation to the Cochlear Delays
เนื้อหาตอนนี้ ส่วนที่เกี่ยวข้องกับการทดลองสรุปจากบทความชื่อเดียวกันของ Eriko Aiba, Minoru Tsuzaki, Satomi Tanaka และ Masashi Unoki ตีพิมพ์ใน J. Psychological Research Vol 50 No 4 ปี 2008 ผลลัพธ์ที่ได้จากการทดลองในบทความนี้ จะถูกนำไปใช้เป็นองค์ความรู้สำคัญในเทคนิค watermarking ที่อาศัยสมบัติ cochlear delay ซึ่งเสนอโดยอาจารย์ Unoki

คำสำคัญที่ควรนำมาขยายความก่อน คือ cochlear delay คืออะไร? ดูรูปส่วนประกอบของหูด้านล่างนะ


เริ่มจากส่วนนอกสุดคือใบหู อันที่จริงใบหูนั้นทำให้สเปกตรัมของสัญญาณเสียงเปลี่ยนแปลงเมื่อมันเดินทางผ่านเข้าไปในรูหู และการเปลี่ยนสเปกตรัมนี้ขึ้นอยู่กับทิศทางของเสียงที่เข้ามา ฉะนั้น ใบหูมีส่วนช่วยในการระบุตำแหน่งของแหล่งกำเนิดเสียงด้วยนะครับ ส่วนที่เป็น ear canal โดยฟังก์ชั่นจะทำหน้าที่เหมือนกับ band-pass filter มันทำให้คนเราอ่อนไหว (sensitive) หรือสามารถรับรู้ต่อความถี่ย่านเสียงพูดได้ดี จนถึงจุดนี้อากาศยังเป็นตัวนำพาเสียง และมาสิ้นสุดเอาที่ eardrum ความดันอากาศที่มากระทบ eardrum จะทำให้มันสั่น และมันเป็นอวัยวะที่อ่อนไหวและน่าทึ่งที่สุดในร่างกายมนุษย์ก็ว่าได้ เพราะเราสามารถตรวจจับการกระจัดของการสั่นได้ในระดับที่น้อยกว่า 1/10 ของขนาดอะตอมไฮโดรเจน (นั่นคือที่ความถี่ 1 kHz ของสัญญาณความถี่เดียว หรือ pure tone) หลังจากนั้นเสียงจะเดินทางเข้าสู่หูชั้นกลาง มีกระดูก 3 ชิ้น สัญญาณเสียงก็ส่งผ่านกระดูก 3 ชิ้นนี้แหละครับ ไม่ได้อาศัยอากาศอีกแล้ว ถึงแม้ว่าในหูชั้นนี้จะเต็มไปด้วยอากาศ เห็นท่อ eustachian มั้ย ท่อนั้นจะต่อกับด้านหลังของลำคอ อากาศที่เข้าออกผ่านท่อ eustachian จะปรับความดันภายนอกและภายในหูให้เท่ากัน (การเคี้ยวหมากฝั่งช่วยแก้หูอื้อขณะเครื่องบินกำลังบินขึ้นได้ก็ด้วยการปรับความดันอากาศของหูชั้นกลางผ่านท่ออันนี้) การเดินทางในตัวกลางที่เป็นกระดูกของเสียงก็สิ้นสุดลงตรงหูชั้นกลาง ที่หูชั้นในมันจะเดินทางต่อโดยอาศัยของเหลวที่อยู่ในอวัยวะรูปก้นหอย อวัยวะส่วนนั้นล่ะคือ cochlea จะเห็นว่าฟังก์ชั่นของหูชั้นกลางก็เหมือนกับเป็นตัวกลางระหว่างสองตัวกลางการเคลื่อนที่ของเสียง ฉะนั้น เราพูดได้ว่าเจ้ากระดูกสามชิ้นของหูชั้นกลาง คือ impedance-matching transformer รายละเอียดเกี่ยวกับ cochlea ผมจะเขียนถึงอีกทีในบล็อกตอนหลัง ๆ สำหรับตอนนี้ จะขอพูดตรงเข้าไปที่อวัยวะสำคัญซึ่งอยู่ภายใน cochlea คือ basilar membrane และความรู้เกี่ยวกับมันที่จำเป็นเพื่อให้เข้าใจบทความนี้ คือ เมื่อเสียงเดินทางผ่านของเหลว ตำแหน่งต่าง ๆ บน basilar membrane จะถูกกระตุ้นให้มีการสั่น โดยตำแหน่งที่สั่นจะขึ้นอยู่กับองค์ประกอบทางความถี่ของคลื่นเสียงนั้น โดยตำแหน่งที่ตอบสนองต่อความถี่สูงจะอยู่ส่วนต้น ๆ ติดกับหน้าต่างวงรี (ดูรปด้านล่าง) และตำแหน่งที่ตอบสนองต่อความถี่ต่ำลงค่อยเลื่อนไปทางปลายของ basilar membrane หมายความว่า ส่วนที่ติดกับหน้าต่างวงรีจะสั่นตอบสนองต่อความถี่สูง ขณะส่วนที่อยู่ปลายสุดจะสั่นตอบสนององค์ประกอบความถี่ต่ำสุด แต่ธรรมชาติไม่ได้ทำให้มันสั่นพร้อม ๆ กัน ถึงแม้ว่าคลื่นเสียงจะเดินทางจากหน้าต่างวงรีจนถึงปลายสุด (แล้วเดินทางอ้อมกลับไปออกทางหน้าต่างวงกลม) แทบจะพร้อม ๆ กัน (เสียงเดินทางในของเหลว) แต่ตำแหน่งที่ความถี่ที่ต่ำกว่าจะถูกกระตุ้นให้ basilar membrane ตอบสนองช้ากว่า นั่นทำให้เรามองเห็นการสั่นของ basilar membrane เสมือนเดินทางเป็นคลื่นจากหน้าต่างวงรีไปยังส่วนปลายของ membrane ลักษณาการที่ basilar membrane ใน cochlea ตอบสนองต่อองค์ประกอบความถี่ต่ำช้ากว่านี่แหละครับ คือ cochlear delays และการสั่นดังกล่าวนี้จะไปกระตุ้นเซลล์ประสาทซึ่งอยู่บน membrane (การสั่นจะดึงหรือกด ส่วนที่เราเรียกว่า tip links บนเซลล์ประสาทให้เปิดหรือปิดช่องที่ K+ ผ่าน) และสร้างสัญญาณไฟฟ้าส่งต่อไปตีความยังสมอง ฉะนั้น เราอาจมอง basilar membrane ว่ามันทำหน้าที่แปลงความถี่ไปเป็นตำแหน่ง (frequency-to-place transform)


สรุปอีกทีนะครับ สมมติคุณเคาะโต๊ะหนึ่งทีในช่วงเวลาสั้น ๆ สัญญาณเสียงที่ได้ยินนั้นประกอบด้วยความถี่ที่แตกต่างกันมากมาย แต่ละความถี่เกิดขึ้นพร้อม ๆ ในทางกายภาพ แต่พอเสียงเคาะโต๊ะที่มีหลาย ๆ ความถี่อันนี้ไปถึง cochlea เจ้า basilar membrane จะมองเห็นความถี่สูงเกิดขึ้นก่อน มันจึงสั่นที่บริเวณใกล้หน้าต่างวงรีก่อน แล้วความถี่ต่ำกว่าค่อยเกิดขึ้นตามมาทีหลัง ในมุมมองของ basilar membrane มันจึงเห็นความถี่ที่แตกต่างกันมากมายเหล่านั้นเกิดขึ้นไม่พร้อมกัน

ทีนี้ ถ้าเราอยากทำให้ทุก ๆ องค์ประกอบความถี่ไปกระตุ้นให้ basilar membrane สั่นพร้อม ๆ กันล่ะ เราจะทำได้อย่างไร ไอเดียไม่ยากครับ ถ้าเรารู้ว่าแต่ละความถี่มีการหน่วงเวลาเท่าไร เราก็ชดเชยเวลาที่หน่วงไปนั้น พูดอีกอย่างหนึ่งว่า แทนที่เราจะป้อนสัญญาณซึ่งทุก ๆ ความถี่เกิดขึ้นทางกายภาพพร้อม ๆ กัน เราก็ปล่อยให้ความถี่ต่ำไปก่อนด้วยค่าระยะเวลาหนึ่งแล้วค่อยปล่อยความถี่สูงตาม เราจะได้สัญญาณดังรูป สัญญาณนี้เรียกว่าสัญญาณที่มีการชดเชยการหน่วงเวลา (compensatory delay)


โอเค เราพร้อมที่จะดูการทดลองตามบทความแล้วล่ะครับ คณะนักวิจัยทำแบบนี้ ผู้ร่วมทดลองจะได้ยินเสียง 2 เสียง ทั้งสองเสียงนั้นถูกปล่อยโดยทิ้งช่วงเวลาห่างกันครึ่งวินาที (ดูรูปด้านล่าง) โดยในแต่ละเสียงนั้นจะประกอบด้วยสัญญาณที่เหมือนพัลซ์ 2 สัญญาณ ซึ่งในเสียงหนึ่ง สัญญาณทั้งสองจะเกิดขึ้นพร้อมกัน (synchronous) ในขณะที่อีกเสียงหนึ่ง สัญญาณทั้งสองจะเกิดขึ้นไม่พร้อมกัน (asynchronous) และมีช่วงเวลาระหว่างสัญญาณที่ไม่พร้อมกันเท่ากับ delay time ดูรูปด้านล่าง ตัวอย่างจากรูป เสียงแรกเป็น asynchronous เพราะมีสัญญาณคล้านพัลซ์ 2 สัญญาณเกิดขึ้นห่างกันเท่ากับ delay time แล้วอีกครึ่งวินาทีต่อมา เสียงที่สองเป็น synchronous เราเห็นขีดเพียงขีดเดียว เพราะสัญญาณคล้ายพัลซ์สองสัญญาณเกิดขึ้นพร้อมกัน หน้าที่ของผู้ร่วมทดลองคือให้บอกว่า เสียงไหน (เสียงแรกหรือเสียงที่สอง) เป็น synchronous และคำตอบที่ถูก หากผู้ร่วมทดลองฟังออกจากรูปตามตัวอย่างนี้ เขาจะตอบว่า เสียงที่สอง


ผมใช้คำว่าสัญญาณคล้ายพัลซ์ (pulse-like) เพราะ ผู้ทดลองมีการเลือกใช้สัญญาณ 3 แบบ คือ (1) สัญญาณพัลซ์ธรรมดา (intrinsic cochlear delay) แบบเดียวกับสัญญาณที่เกิดจากเสียงเราทุบโต๊ะสั้น ๆ หนึ่งทีนั่นแหละครับ องค์ประกอบทางความถี่ของเสียงทุกความถี่เกิดขึ้นพร้อม ๆ กันทางกายภาพ และมันก็จะไปดีเลย์องค์ประกอบความถี่ต่ำบน basilar membrane ตามธรรมชาติ (2) สัญญาณที่ชดเชยดีเลย์ (compensatory delay) ซึ่งก็คือสัญญาณที่เห็นในรูปด้านบน ปล่อยความถี่ต่ำออกมาก่อนแล้วตามมาด้วยความถี่สูง เพื่อให้ทุก ๆ ความถี่ไปกระตุ้น basilar membrane พร้อม ๆ กัน และ (3) สัญญาณที่ดีเลย์ความถี่ต่ำให้นานขึ้นไปอีก (enhanced delay) ก็คือปล่อยความถี่สูงก่อนแล้วค่อยปล่อยความถี่ต่ำตาม ปกติ ถ้ามันไปพร้อม ๆ กัน ความถี่ต่ำก็ถูกดีเลย์ตามธรรมชาติอยู่แล้วใช่มั้ยครับ แต่อันนี้แกล้งปล่อยให้มันไปช้า มันก็ยิ่งดีเลย์ขึ้นไปอีก แน่นอนว่าผู้ร่วมการทดลองไม่รู้ว่าตนกำลังฟังเสียงที่ประกอบจากสัญญาณแบบไหนในสามแบบนี้

พารามิเตอร์ delay time ที่ใช้ในการทดลองมี 0.2 0.3 0.5 0.8 1.3 2.0 และ 3.2 ms ถ้าเราใช้ common sense เราก็บอกได้ว่ายิ่ง delay time มาก คนฟังก็ยิ่งบอกได้ง่ายว่าเสียงไหน sync เสียงไหนไม่ sync และผลการทดลองก็สอดคล้องกับ common sense นั่นแหละ ผู้เขียนบอกว่า อัตราส่วนของคำตอบที่ถูกเพิ่มขึ้น เมื่อ delay time เพิ่มขึ้น

ผลลัพธ์จากการทดลองที่สำคัญคือ เขาพบว่า สัญญาณชนิด compensatory delay จะทำให้เราตัดสินว่าเสียงไหน sync ยากขึ้น ขณะที่สัญญาณชนิด enhanced delay จะให้ผลการตัดสินใจใกล้เคียงกับสัญญาณพัลซ์ธรรมดา (intrinsic cochlear delay) หรือพูดอีกอย่างหนึ่งว่า เราแยกเสียง enhanced delay กับ intrinsic cochlear delay ไม่ค่อยออกหรอก นี่คือไอเดียหลักที่ใช้ในเทคนิคลายน้ำเสียงของอาจารย์ Unoki ที่ได้เสนอและตีพิมพ์ในปีต่อมา



Create Date : 16 เมษายน 2556
Last Update : 17 เมษายน 2556 1:16:15 น.
Counter : 3060 Pageviews.

0 comments
:: ปูรณฆฏะ :: กะว่าก๋า
(18 มี.ค. 2562 06:13:13 น.)
Don't Worry Be Happy - Bobby McFerrin ... ความหมาย tuk-tuk@korat
(24 ก.พ. 2562 16:10:07 น.)
Anyone Who Had A Heart (Oldies) - Dionne Warwick ... ความหมาย tuk-tuk@korat
(10 มี.ค. 2562 10:31:45 น.)
นุ่งซิ่นชวนแว้นคลายร้อน ตะลีกีปัส
(11 มี.ค. 2562 12:44:10 น.)
ชื่อ : * blog นี้ comment ได้เฉพาะสมาชิก
Comment :
 *ส่วน comment ไม่สามารถใช้ javascript และ style sheet
 

Zol.BlogGang.com

ศล
Location :
กรุงเทพ  Thailand

[ดู Profile ทั้งหมด]
 ผู้ติดตามบล็อก : 85 คน [?]

บทความทั้งหมด