Bloggang.com : ศล

Bloggang.com : weblog for you and your gang

creatio ex nihilo

ศล

Location :
กรุงเทพ Thailand

[Profile ทั้งหมด]

ฝากข้อความหลังไมค์

Smember

ผู้ติดตามบล็อก : 85 คน [?]

Group Blog

All Blogs

Friends' blogs

Webmaster - BlogGang

[Add ศล's blog to your web]

Links

BlogGang.com

Flaw in SVD-based Watermarking

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

เนื้อหาตอนนี้ผมสรุปจากบทความในชื่อเดียวกันของ L. Lamarche, Y. Liu กับ J. Zhao จาก Canadian Conference on Electrical and Computer Engineering ที่ออตตาว่าปี 2006 ในบทคัดย่อของบทความ Lamarche อ้างถึง Zhang กับ Li (2005) ที่ได้วิจารณ์ image watermarking ของ Liu กับ Tan ซึ่งใช้เทคนิค SVD ที่ได้เสนอไปเมื่อปี 2002 ว่ามีจุดบกพร่อง และเนื่องจาก Ozer ได้นำเทคนิคดังกล่าวมาประยุกต์ใช้กับ audio (ไอเดียของ Ozer ดูได้จาก An SVD-Based Audio Watermarking Technique) Lamarche และคณะจึงจะสำรวจและทดสอบว่า วิธีการของ Ozer จะมีจุดบกพร่องแบบเดียวกันหรือไม่ อันนี้คือแก่นของบทความ ในการชี้จุดผิดของการทำลายน้ำภาพนั้น Zhang ให้เหตุผลว่า ในส่วนตรวจจับลายน้ำต้องอาศัยเมตริกซ์ 2 ตัวซึ่งเราถือว่ารู้ก่อนล่วงหน้า เจ้าเมตริกซ์สองตัวนี้ถูกสร้างขึ้นระหว่างขั้นตอนฝังลายน้ำนะครับ (ถ้าคุณอ่านตอนที่แล้วคงจำได้, ถ้าจำไม่ได้ เดี๋ยวผมจะพูดถึงซ้ำอีกทีในเนื้อหาตอนนี้ ช่วงต่อไป) และการตรวจจับดังกล่าว ขึ้นอยู่กับเมตริกซ์ 2 ตัวนี้มากเกินไป ทำให้อัตราการตรวจจับที่เป็น false positive มีค่าสูง สำหรับ Lamarche เมื่อได้ทดลองแล้วก็พบอย่างเดียวกัน

ทบทวนเทคนิคของ Ozer รูปด้านล่างแสดงการฝัง

นำสัญญาณเสียงมาแปลง STFT แล้วสร้างเมตริกซ์ A ขนาด FxM (ถ้าอ่านเปเปอร์ต้นฉบับ ผู้เขียนจะเขียน M by F matrix ซึ่งน่าจะพิมพ์ผิดนะ เพราะในส่วนถัดมา เราจะเห็นค่า i รันจาก 1 ถึง F และ j รันจาก 1 ถึง M) ต่อมา แยกเมตริกซ์ดังกล่าวด้วย SVD ได้ A = UDV^T เมื่อ D เป็นเมตริกซ์ singular value, D = diag(δ₁, δ₂, ..., δ_r) เมื่อ δ_i คือ sv

วิธีการฝังของ Ozer คือการเปลี่ยนเมตริกซ์ D ด้วย D_W พูดอีกอย่างว่า ผลคูณของ UD_WV^T ได้ A_W หรือเมตริกซ์ที่เมื่อแปลง STFT ผกผันแล้วจะได้สัญญาณเสียงที่ฝังลายน้ำลงไปเรียบร้อยแล้ว ทีนี้ ในการสร้าง D_W เขาจะสร้าง W_D ขึ้นมาก่อน โดยเมื่อเอา W_D มาแยกด้วย SVD เราจะได้ W_D = U_WD_WV_W^T

W_D สร้างจากการดัดแปลงเมตริกซ์ W_FxM หรือ watermark carrier ซึ่งแต่ละ element เป็นเสมือน noise ด้วยค่า δ_i, a = embedding strength กับ b = polarity {-1, 1} ของ watermark ดังสมการ

W_D(i,j) = δ_i + abδ_iw(i,j)

โอเคนะครับ หลังจากได้ W_D เอามันมาแยก SVD เพื่อให้ได้ D_W แล้วเอา D_W ไปแทนที่ D ใน UDV^T เราก็จะได้ A_W เอาไปแปลง inverse STFT ก็จบ ทั้งนี้ทั้งนั้น ในการตรวจจับลายน้ำ ทางฝั่งตรวจจับจะต้องใช้เมตริกซ์ 2 ตัวคือ U_W กับ V_W ตรงนี้แหละครับที่เปเปอร์นี้อ้างว่าเป็นตัวปัญหา (จะจริงเท็จแค่ไหน เท่าที่รู้ตอนนี้ ผมยังไม่เห็นมีใครยืนยันซ้ำนะ)

ภาคตรวจจับลายน้ำมี diagram ดังรูป

เอา watermarked signal มาแปลง STFT เพื่อสร้างเมตริกซ์ A_W จากนั้นใช้ SVD แยก A_W เพื่อให้ได้ D'_W ใช้ D'_W ร่วมกับ U_W และ V_W ที่รู้ก่อนล่วงหน้าจากขั้นตอนการฝัง เพื่อสร้าง W'_D = U_WD'_WV_W^T หลังจากนั้นใช้ W'_D หา W' จาก W' = D^-1(W'_D - D)/a สุดท้ายในการตัดสินว่าบิตที่ฝังคืออะไร เราหา correlation ระหว่าง W' กับ W (original watermark) โดยถ้า ∑w_ijw'_ij สำหรับทุกค่า i, j เป็นบวก เราจะตีความว่า b = 1 (bit 1) นอกนั้น b = -1 (bit 0)

ในส่วนการทดลอง ผู้เขียนบอกว่าไม่สามารถทำตามขั้นตอนที่ Ozer เสนอได้ เพราะหลังจากทำตามเปเปอร์ของ Ozer สร้าง W_D ขึ้นมาแล้ว watermarked signal นั้นมี noise เยอะมาก! จึงดัดแปลงสมการตอนฝังข้อมูลเป็น W_D(i,j) = D(i,j) + abD(i,j)w(i,j) แต่พอดัดแปลงอย่างนี้แล้ว มีปัญหาตอน detect อีก จึงดัดแปลงอีกครั้ง เป็น W_D(i,j) = D(i,j) + abw(i,j) ฉะนั้นสมการตอนตรวจจับจึงต้องเปลี่ยนตาม เป็น W' = (W'_D - D)/a

การทดสอบที่ 1 ลายน้ำ W_r สำหรับ bit = 1 ถูกฝังลงในสัญญาณเสียงพูด X₀ ได้สัญญาณ X_W พร้อมเมตริกซ์ U_W กับ V_W ทีนี้ แทนที่จะใช้ X_W เป็น input สำหรับ detection stage ก็ใช้สัญญาณ Y ซึ่งเป็นเสียงพูดอีกอันหนึ่งแทน สัญญาณ Y นี้ไม่มีลายน้ำนะครับ และเป็นคนละอันกับ X₀ ปรากฏว่า ใช้ Y ร่วมกับ U_W และ V_W เขาก็สามารถตรวจจับลายน้ำได้ รูปด้านล่าง เอาลายน้ำที่ดึงมาจาก Y หาความคล้ายกับลายน้ำที่สร้างอย่างสุ่ม 200 ตัว โดยตัวที่ 100 เป็นลายน้ำของจริง แต่ในความเป็นจริง Y ไม่มีลายน้ำ!

การทดสอบที่ 2 โจมตี U_W กับ V_W โดยการเติม noise เล็ก ๆ U'_W = U_W + cU_Noise และ V'_W = V_W + cV_Noise เมื่อ U_Noise กับ V_Noise เป็น random noise matrices ที่มีการแจกแจงแบบปกติ และ c คือ noise variance กรณีที่ c = 10 เมื่อดึงลายน้ำจาก X_W โดยใช้ U'_W กับ V'_W และหาความเหมือนกับลายน้ำที่สุ่ม 200 ตัวโดยตัวที่ 100 เป็นลายน้ำจริงจะได้ผลลัพธ์ดังรูป เห็นว่ากรณีนี้ correlation กับลายน้ำสุ่มไม่ได้ใกล้ 0 หมายความว่า false positive rate สูง

และเมื่อคำนวณ BER เมื่อทดสอบ 1000 ครั้งที่ค่า c = 1, 10 และ 100 ตามลำดับพบว่าเกิด error 47 ครั้งสำหรับทั้ง 3 กรณี นั่นคือ BER = 4.7% สำหรับการใส่ noise ลงในเมตริกซ์ ผู้เขียนสรุปว่า ภาคตรวจจับของ Ozer ขึ้นอยู่กับเมตริกซ์ที่สร้างตอนฝังและส่งผ่านมาใช้ตอนตรวจจับมากเกินไป และไม่ขึ้นอยู่กับ watermarked signal ที่ใช้ในการทดสอบ

ถ้าผลจากเปเปอร์นี้จริง วิธีของ Ozer น่าจะเจอปัญหาซีเรียส และเป็นไปได้ว่า กลุ่มของเทคนิคที่ส่งผ่าน U_W กับ V_W น่าจะเจออะไรที่คล้าย ๆ กัน, เท่าที่ได้ review มาถึงขณะนี้ ผมยังไม่เจอใครทดสอบการขึ้นอยู่กับเมตริกซ์สองตัวนี้ในกลุ่มเทคนิคที่คล้ายคลึงกับงานของ Ozer นะ

Create Date : 27 สิงหาคม 2556

Last Update : 27 สิงหาคม 2556 20:59:32 น.

Counter : 1282 Pageviews.

0 comment

Share
Tweet

An SVD-Based Audio Watermarking Technique

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

เนื้อหาตอนนี้ผมสรุปจากบทความในชื่อเดียวกันของ H. Ozer, B. Sankur กับ N. Memon จาก Workshop on Multimedia and Security ครั้งที่ 7 ปี 2005 ที่ New York ไอเดียของบทความถูกนำไปอ้างถึงและต่อยอดในอีกหลายบทความนะครับ ซึ่งเป็น SVD-based ที่แตกต่างจากเทคนิคที่ผมเคยเล่าไปก่อนหน้า (ดู A New Audio Watermarking Scheme Based on Singular Value Decomposition and Quantization) และผลลัพธ์ที่ได้จากเทคนิคนี้ robustness สูงมาก กระนั้น ในปี 2006 มีบทความของ L. Lamarche และคณะจาก Canadian Conference on Electrical and Computer Engineering ที่ออตตาว่า ออกมาแย้งถึงการตีความ robustness สูงเกินไปเนื่องจาก BER ที่ต่ำนั้นเป็นผลสืบเนื่องของ false positive detection rate ที่สูง รายละเอียดบทความของ Lamarche (2006) ผมจะเอามาเล่าบล็อกตอนต่อไป สำหรับตอนนี้เราจะศึกษาไอเดียของ Ozer และคณะกันก่อน

ขั้นตอนการซ่อนลายน้ำ เริ่มจาก เอาสัญญาณเสียงมาแปลง STFT สมการ analysis และ reconstruction ของ STFT คือ



เมื่อ g(t) เป็น window function ที่เลื่อนไปคูณกับสัญญาณเสียง x(t) ตลอดย่านที่มีสัญญาณ x(t) ก่อนเอาผลลัพธ์จากการคูณนั้นมาแปลงฟูริเยร์ หลังจากแปลง เราจะได้ฟังก์ชั่นในโดเมนความถี่และเวลา ซึ่งเอามาสร้างเป็นเมตริกซ์สองมิติขนาด FxM เมื่อ F คือ จำนวนเฟรม (ขึ้นอยู่กับความยาวของ x(t)) และ M คือ ขนาดของเฟรม

ต่อมา เอาเมตริกซ์ดังกล่าวมาแยกด้วย SVD: A_FxM = UDV^T เมื่อ D เป็น diagonal matrix ขนาด FxM ที่มี elements บนเส้นทแยงมุม หรือที่เรียกว่า singular value (sv) จำนวน min(F,M) ตัว ส่วน U กับ V เป็น orthogonal matrix ขนาด FxF กับ MxM ตามลำดับ สมบัติที่สำคัญของ SVD คือ sv ไม่เปลี่ยนแปลงภายใต้ orthogonal transformation

หลังจากได้ D แล้ว เราจะฝังลายน้ำลงใน D โดยใช้ watermark (ซึ่งเป็นลำดับของรหัสเลขฐานสอง) ร่วมกับ pseudo-random signal เพื่อกระจายกำลังงานของ watermark bit ซึ่งเจ้าสัญญาณ pseudo-random ตัวนี้ ในเปเปอร์ผู้เขียนเรียกว่า watermark carrier W = {w(i,j)} เป็นเมตริกซ์ขนาด FxM ที่แต่ละ element มีลักษณะคล้าย random noise

วิธีฝัง เริ่มจากสร้าง W_D จาก w_D = δ_i + abδ_iw(i,j) สำหรับ i = 1, 2, ..., F และ j = 1, 2, ..., M เมื่อ δ_i คือ sv ของ A, a คือ embedding strength หรือ scaling factor และ b ∈ {-1, 1} เป็น polarity ของลายน้ำที่จะฝัง

ต่อมา เอา W_D มาแยกด้วย SVD อีกที W_D = U_WD_WV_W^T สุดท้าย ได้สัญญาณเสียงหลังจากฝังลายน้ำลงไปจากการแปลง inverse STFT ของ A_W = UD_WV^T ขั้นตอนโดยรวมแสดงดังรูป

ทางฝั่งตรวจจับลายน้ำ จะถือว่ามีข้อมูลเหล่านี้อยู่ในมือ ได้แก่ U_W, V_W, D และ key ที่ใช้สร้าง pseudo-random signal ขั้นตอนการตรวจจับลายน้ำก็เสมือนเป็นขั้นตอนย้อนกลับของการฝังลายน้ำ นำสัญญาณเสียงที่ได้รับมาแปลง STFT แล้วสร้างเมตริกซ์ A' จากนั้น กระจาย A' ด้วย SVD

          A' = U'D'_WV'^T

เอา D'_W ที่ได้จากขั้นตอนแยก SVD กับ U_W และ V_W (2 ตัวหลังนี้ ถือว่าทางฝั่งถอดลายน้ำรู้ล่วงหน้าแล้ว) มาหา W'_D = U_WD'_WV_W^T แล้วใช้ W'_D ในการคำนวณ W' จากความสัมพันธ์ aW' = D^-1(W'_D - D)

เราใช้ key สร้าง W (ซึ่งจะได้เมตริกซ์ของ watermark carrier เหมือนตอนซ่อนข้อมูล) แล้วทำการเปรียบเทียบความเหมือนของ W' กับ W

          W'·W = ∑w_ijw'_ij สำหรับทุกค่า i, j

ถ้า W'·W > 0 เราจะบอกว่า b = 1 แต่ถ้า W'·W ≤ 0 เราจะบอกว่า b = -1

รูปด้านล่างแสดงตัวอย่างการตอบสนองของ detector ต่อ watermark ที่สร้างอย่างสุ่ม 1000 ตัว แกนนอนคือการตอบสนอง ซึ่งดู correlation หรือ similarity score และตำแหน่งที่ 500 เป็นลายน้ำของจริงหลังจากถูกโจมตี 4 แบบ คือ (a) copysample, (b) fft_HLPass, (c) flipsample, (d) zerocross

ลักษณะของสัญญาณต้นฉบับและสัญญาณหลังจากถูกโจมตีทั้ง 4 แบบข้างต้นแสดงดังรูป (a) - (e) ตามลำดับ

ผลการทดลอง audibility tests ได้คะแนน PAQM = 0.01 และ MOS = 4.7 ถือว่าดีมากนะครับ ตัวเลขนี้หมายความว่าฟังแยกความแตกต่างระหว่างสัญญาณต้นฉบับกับสัญญาณเสียงที่ใส่ลายน้ำแทบไม่ออก ผลการทดสอบ robustness tests ก็ออกมาดี BER ต่ำมาก ดูตารางที่ 1 และผู้เขียนได้เปรียบเทียบ BER ระหว่าง SVD-based กับ DCT-based แสดงดังตารางที่ 2

Create Date : 25 สิงหาคม 2556

Last Update : 27 สิงหาคม 2556 1:32:24 น.

Counter : 1728 Pageviews.

0 comment

Share
Tweet

Absolute Thresholds

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

บทนี้พูดถึงความสามารถของ auditory system ในการตรวจจับเสียงเบา ๆ เมื่ออยู่ในสภาพแวดล้อมที่ไม่มีเสียงอื่นอยู่ด้วย

absolute threshold หรือ ขีดเริ่มการได้ยินเสียง คือ ระดับต่ำสุดของเสียงที่หูเราสามารถตรวจจับได้เมื่อไม่มีเสียงอื่น โดยทั่วไป เรามีวิธีวัดระดับต่ำสุดดังกล่าวอยู่ 2 แบบ (1) วัดความดันเสียงที่จุดใดจุดหนึ่งใกล้รูหูหรือในรูหูโดยใช้ไมโครโฟนโพรบอันเล็ก ๆ ยิ่งใกล้ eardrum ยิ่งดี วิธีวัดแบบนี้ต้องระบุตำแหน่งให้ชัดเจนนะครับ เพราะตำแหน่งต่างกันนิดเดียว ให้ผลลัพธ์ที่แตกต่างกันอย่างมากได้สำหรับกรณีความถี่สูง ขีดเริ่ม หรือ threshold ที่วัดด้วยวิธีนี้เรียกว่า minimum audible presure หรือ MAP, (2) วัดระดับเสียงหลังจากเอาผู้ฟังออกจากสนามเสียง (sound field) โดยทำการวัดที่จุดซึ่งเคยเป็นกึ่งกลางศีรษะของผู้ฟัง เรียกค่าขีดเริ่มที่วัดด้วยวิธีนี้ว่า minimum audible field หรือ MAF

เสียงที่เราใช้ป้อนเป็น input ส่วนใหญ่เป็น sinusoidal tone ที่ยาวกว่า 200 ms ทั้งนี้เพราะช่วงความยาวของเสียงมีผลต่อระดับขีดเริ่มการได้ยินเสียง (ถ้าเสียงนานกว่า 500 ms ความยาวของเสียงไม่มีผลต่อ threshold) กราฟขีดเริ่มการได้ยินมักพล็อตในโดเมนความถี่ของ sinusoidal tone ดังรูป

จากรูป เห็นเส้นประ MAP มีวงเล็บ monaural หมายถึง กรณีมีเสียงป้อนเข้ามาที่หูข้างเดียว (ผ่านทางหูฟัง) ส่วน MAF ผู้ฟังตัดสินความดังโดยหูทั้งสองข้าง (binaural) โดยเฉลี่ยนั้น ถ้าใช้สองหู ค่า threshold จะลดลงประมาณ 2 dB SPL เมื่อเทียบกับกรณีหูเดียว เส้นกราฟได้จากข้อมูลเฉลี่ยของผู้ฟังอายุน้อยที่หูปกตินะครับ หมายเหตุ สำหรับผู้ฟังคนใดคนหนึ่งอาจมีค่า threshold สูงหรือต่ำกว่ากราฟนี้ได้ถึง 20 dB SPL ที่บางค่าความถี่ ก็ยังจัดว่าเป็นผู้ฟังที่ปกติอยู่นะ

กราฟ MAP กับ MAF แตกต่างกันชัดเจนในช่วงความถี่ 1.5 - 6 kHz อันนี้เป็นผลจากปากรูหูกับใบหู เพราะการวัดแบบหนึ่งเราต้องยัดโพรบเข้าไปในรูหู ส่วนการวัดอีกแบบ โพรบวางอยู่ในสนามเสียงอิสระไม่ถูกครอบงำด้วยอิทธิพลของปากรูหูกับใบหู ผลต่างของระดับเสียง MAP กับ MAF แสดงดังรูปด้านล่าง

threshold ทั้ง MAP และ MAF จะเพิ่มขึ้นอย่างรวดเร็วที่ความถี่สูงมากและต่ำมาก ส่วนหนึ่งมาจากลักษณะเฉพาะของการส่งผ่านสัญญาณของหูชั้นกลาง ซึ่งส่งผ่านได้ดีในย่านความถี่กลาง ๆ

ความถี่สูงสุดที่สามารถได้ยินได้ขึ้นอยู่กับอายุ ในเด็กนั้นอาจได้ยิน tone ความถี่สูงถึง 20 kHz แต่สำหรับผู้ใหญ่ส่วนใหญ่ ค่า threshold จะเพิ่มขึ้นอย่างรวดเร็วเมื่อความถี่สูงกว่า 15 kHz ส่วนทางฝั่งความถี่ต่ำ ดูเหมือนจะไม่มีขีดจำกัดจำเพาะ Whittle และคณะ (1972) ได้ทดลองวัด threshold สำหรับความถี่จาก 50 Hz ถึง 3.15 Hz พบว่าผลลัพธ์หรือกราฟที่ได้ก็ดูต่อเนื่องกับฝั่งความถี่ที่สูงกว่าดี กระนั้น ที่ 3.15 Hz ขีดเริ่มการได้ยินจะมีค่าอยู่ที่ราว 120 dB SPL

Johnson กับ Gierke (1974) บอกว่า ในความหมายทั่ว ๆ ไปนะ เราไม่ควรพูดว่าได้ยินเสียงที่ความถี่ต่ำกว่า 16 Hz แต่เราตรวจจับมันได้จาก distortion products (ฮาร์มอนิกส์) ที่พวกมันสร้างขึ้นหลังจากผ่านเข้าไปในหูชั้นกลาง หรือจากการสั่นของร่างกาย อย่างไรก็ตาม แนวคิดของ Johnson กับ Gierke ก็ไม่ค่อยเป็นที่ยอมรับเท่าไรนัก

Moller กับ Pederson (2004) บอกว่า สัญญาณ sinusoidal ที่ความถี่ต่ำกว่า 20 Hz นั้นถูกตรวจจับด้วยหูมากกว่าการสั่นของร่างกาย แต่ที่ความถี่ดังกล่าว เราจะไม่ได้ยินเสียงเป็นโทนอลหรือเสียงแบบที่เอามาทำเป็นทำนองเพลง การได้ยินเสียงที่ความถี่ต่ำกว่า 20 kHz มีลักษณะไม่ต่อเนื่อง และมันอาจถูกรับรู้แบบเรารู้สึกถึงความดันที่ eardrum อันที่จริง ความถี่ 20 Hz ใกล้เคียงกับความถี่ต่ำสุดที่ทำให้เรารับรู้ pitch ของ complex sound

มีรายงานมานานนมแล้วว่า absolute threshold ของเสียงขึ้นอยู่กับช่วงเวลาที่เสียงปรากฏ กรณีที่ช่วงเวลาต่ำกว่า 200 ms เราต้องใช้เสียงที่ดังขึ้นเมื่อช่วงเวลาลดลงเพื่อให้ตรวจจับเสียงนั้นได้ มีนักวิทยาศาสตร์หลายคนสนใจศึกษาดูความสัมพันธ์ระหว่าง threshold กับ ช่วงเวลา งานยุคแรก ของ Hughes (1946) และ Garner กับ Miller (1947) บอกว่า ในช่วงเวลาที่เหมาะสมค่าหนึ่งนั้น ดูเหมือนหูของคนเราจะรวม (integrate) พลังงานของตัวกระตุ้นตลอดช่วงเวลาดังกล่าวเพื่อใช้ตรวจจับ tone สั้น ๆ อันนั้น ถ้าคำอธิบายนี้เป็นจริงนะครับ เราจะต้องได้ว่า I x t = ค่าคงที่ เมื่อ I คือ ความเข้มเสียงขีดเริ่มสำหรับโทนที่ปรากฏในช่วงเวลา t (นั่นคือ ถ้า t ลดลง, เราจะต้องวัดได้ I มากขึ้น) ซึ่งคำว่าค่าคงที่นี้ก็เป็นค่าคงที่ที่ขึ้นอยู่กับ (หรือแปรเปลี่ยนไปตาม) ความถี่

ในทางปฏิบัติ ผลลัพธ์จะเข้ากับความสัมพันธ์ (I - I_L) x t = I_L x τ = ค่าคงที่ มากกว่า เมื่อ I_L คือ ความเข้มขีดเริ่มของโทนกรณีที่มีช่วงเวลายาว Garner กับ Miller ตีความว่าเฉพาะความเข้มที่เกิน I_L เท่านั้นที่ถูกหูเอามารวมอย่างเป็นเชิงเส้น ในงานศึกษาต่อมาโดย Zwislocki (1960) Penner (1972) บอกว่า ความคิดดังกล่าวน่าจะผิด คือ auditory system ไม่น่าจะเป็นตัวรวมพลังงานกระตุ้น น่าจะเป็นกิจกรรมของนิวรอนมากกว่า และอาจเป็นไปได้ว่าที่ auditory system ตรวจจับ threshold ได้ดีกว่าเมื่อเสียงยาวกว่า เป็นเพราะเสียงที่ยาวกว่าเพิ่มโอกาสการตรวจจับซึ่งอาจเป็นแบบไม่ต่อเนื่องได้มากกว่า ไอเดียอันนี้เรียกว่า multiple looks และได้รับการสนับสนุนจากผลการทดลองของ Viemeister กับ Wakefield (1991)

พวกเขาศึกษาการตรวจจับโทน 1 kHz สั้น ๆ ที่ปรากฏ ณ ช่วงเวลาที่ 10-20 ms และ/หรือ 120-130 ms (ตามรูปข้างบน) โดยเส้นประคือ noise ที่ช่วงเวลา 50 ms ตรงกลางนั้น ระดับของมันจะเปลี่ยนแปลงในช่วง ±6 dB ของแต่ละรอบการทดลอง พบว่า กรณีที่มีโทน 2 โทน ขีดเริ่มการได้ยินจะต่ำกว่ากรณีมีโทนเดียว (โทนตัวหน้าหรือตัวหลัง ตัวใดตัวหนึ่ง) ประมาณ 2.5 dB, ถ้า auditory system รวมพลังงานของโทน 2 โทนแบบต่อเนื่องตามที่การศึกษายุคแรก ๆ เสนอ ขีดเริ่มการได้ยินก็ต้องได้รับผลกระทบจากการเปลี่ยนระดับของ noise ตรงกลาง แต่ผลการทดลองกลับพบว่าขีดเริ่มของการได้ยินไม่แปรตามระดับของ noise ตรงกลาง ทฤษฎี temporal integration ที่ว่า (I - I_L) x t เป็นค่าคงที่จึงให้คำอธิบายดี ๆ ต่อผลการทดลองนี้ไม่ได้นะครับ

ที่มา: บางส่วนจากบทที่ 2 Absolute Thresholds หนังสือ An Introduction to the Psychology of Hearing (6th Ed) โดย Brian C. J. Moore (Emerald, 2012)

Create Date : 24 สิงหาคม 2556

Last Update : 24 สิงหาคม 2556 10:59:49 น.

Counter : 3251 Pageviews.

0 comment

Share
Tweet

Subjective Attributes of Sound

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

ปกติเวลาพูดถึงเสียง โดยเฉพาะเสียงดนตรี เรามักจะบรรยายเสียงด้วยสมบัติ (attribute) หรือปริมาณ 4 อย่าง ได้แก่ ความดัง (loudness) pitch (ระดับเสียง, คนละอย่างกับระดับเสียงในความหมาย sound level นะครับ, ศัพท์บัญญัติราชบัณฑิตยสถาน บัญญัติ pitch = ระดับเสียง ในกลุ่มศัพท์สัทศาสตร์ ซึ่งจะหมายถึงเสียงสูง เสียงต่ำ อันนี้สัมพันธ์กับปริมาณทางกายภาพคือความถี่ แต่ sound level เป็นการวัดความดันหรือความเข้มเสียง, ในบล็อกกลุ่มนี้ ผมใช้คำว่า ระดับเสียง = sound level ฉะนั้นเวลาพูดถึง pitch จึงใช้ว่า พิตช์ จะไม่ใช้คำว่าระดับเสียงตามศัพท์บัญญัติ ซึ่งอาจจะทำให้งง), timbre (แทมเบ้อ, น้ำเสียงในความหมายคุณภาพเสียงที่ทำให้เสียงแตกต่างกันในแต่ละคนหรือแต่ละเครื่องดนตรี) และ ช่วงเวลาสั้น-ยาว (duration)

สมบัติหรือปริมาณทั้ง 4 ตัวนี้เป็นปริมาณเชิงจิตวิสัย (subjective) ที่ขึ้นอยู่กับปริมาณทางกายภาพที่สามารถวัดได้เชิงวัตถุวิสัย ขึ้นอยู่กับอะไรมากน้อยแค่ไหนนั้นแสดงดังตารางด้านล่างนี้ ยิ่ง "+" มาก ก็หมายถึง ปริมาณเชิงจิตวิสัยตัวนั้นขึ้นอยู่กับปริมาณเชิงวัตถุวิสัยมาก

(หมายเหตุ เนื้อหาเรียบเรียงจากบางส่วนของ 5.8 Subjective Attributes of Sound, The Science of Sound 3rd Ed, โดย Rossing, Moore, กับ Wheeler)

Create Date : 24 สิงหาคม 2556

Last Update : 24 สิงหาคม 2556 9:41:25 น.

Counter : 1116 Pageviews.

0 comment

Share
Tweet

Orthogonality

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

เป็นอีกหนึ่ง concept ที่ใช้บ่อยใน DSP, คำว่า orthos ภาษากรีก หมายถึง ตั้งฉาก หรือ มุมฉาก, ในทางคณิตศาสตร์ เวกเตอร์ชนิดแถว a กับ b จะตั้งฉากกันเมื่อ inner product a*b′ = 0 ดังรูป

ถ้าเรามีแซมเปิ้ลอยู่ N แซมเปิ้ลจากฟังก์ชั่น 2 ฟังก์ชั่น a(t) กับ b(t) ที่ถูกสุ่มตัวอย่างที่ t = 0, T, ..., (N-1)T เพื่อสร้างเวกเตอร์ [a₀ a₁ ··· a_N-1] กับ [b₀ b₁ ··· b_N-1] เงื่อนไขสำหรับ orthogonality ในบริบทของแซมเปิ้ล N ตัวนี้คือ

เช่น a_n = sin(2πn/N) และ b_n = cos(2πn/N) เป็นฟังก์ชั่นที่ตั้งฉากกันภายใต้เงื่อนไขว่าเวกเตอร์ทั้งสองมี elements ที่ถูกสุ่มด้วย step คงที่ T แบบเดียวกัน และการที่เรารู้ว่าฟังก์ชั่นไหนตั้งฉากกันนั้นมีประโยชน์นะครับ อย่างในการหา least-squares coefficient ถ้า approximating function f̂(c,nT) ประกอบด้วยฟังก์ชั่น g_m จำนวน M ฟังก์ชั่นที่ตั้งฉากกันและกัน การคำนวณก็จะง่ายขึ้น

ที่มา: หัวข้อ 2.3 Orthogonality หนังสือ Digital Signal Processing with Examples in MATLAB ของ S. D. Stearns กับ D. R. Hush

Create Date : 28 กรกฎาคม 2556

Last Update : 28 กรกฎาคม 2556 20:08:32 น.

Counter : 1573 Pageviews.

0 comment

Share
Tweet

1 2 3 4 5 6 7 8 9

Pantip.com | PantipMarket.com | Pantown.com | © 2004 BlogGang.com allrights reserved.