Bloggang.com : ศล - Research of Improved Echo Data Hiding: Audio Watermarking based on Reverberation

Bloggang.com : weblog for you and your gang

creatio ex nihilo

ศล

Location :
กรุงเทพ Thailand

[Profile ทั้งหมด]

ฝากข้อความหลังไมค์

Smember

ผู้ติดตามบล็อก : 85 คน [?]

Group Blog

All Blogs

Friends' blogs

Webmaster - BlogGang

[Add ศล's blog to your web]

Links

BlogGang.com

Research of Improved Echo Data Hiding: Audio Watermarking based on Reverberation

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

เนื้อหาตอนนี้ ผมสรุปจากบทความในชื่อเดียวกันของ G. Nain, S. Wang กับ Y. Ge ใน Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 117-180 ปี 2007 ที่ Honolulu

เทคนิค echo-hiding ที่ผมได้เล่ามาหลายตอนก่อนหน้านี้ อย่างมากเราเพิ่ม echo เข้าไปไม่เกิน 4 ลูกใช่มั้ยครับ แต่สำหรับเทคนิคที่ผ้เขียนเสนอในบทความนี้ คีย์เวิร์ดของมันคือ reverberation ซึ่งก็ไม่ใช่อะไรหรอก นอกจาก echo จำนวนมากที่ผสมปนเปกันแบบซับซ้อน เรายังคงใช้ kernel 2 ตัวในการฝัง "0" กับ "1" แต่คำถามอยู่ที่ เราจะหา kernel ยังไง นี่แหละครับประเด็น และคำตอบของผู้เขียนคือ หาจาก reverberation (หรือพูดให้เจาะจง room impulse response) ที่จุด 2 จุดในห้อง ใช้จุดหนึ่งแทนการฝัง "0" และอีกจุดสำหรับฝัง "1" โดยวิธีการหา room ir ของผู้เขียนคือ image method และพารามิเตอร์ที่ใช้หา room ir ยังทำหน้าที่เป็น secret key ที่จำเป็นต้องใช้ในการดึงลายน้ำออกมา นั่นเท่ากับเป็นการเพิ่ม security อีกทอดหนึ่ง

สมมติว่าแหล่งกำเนิดเสียงอยู่ที่ (s_x, s_y, s_z) และเลือกผู้ฟัง 2 จุด พิกัด (l_x1, l_y1, l_z1) กับ (l_x2, l_y2, l_z2) คำนวณ room ir h₁(n) กับ h₂(n) จากนั้นใช้มันสร้าง kernel function f₁(n) = δ(n) + h₁(n) กับ f₂(n) = δ(n) + h₂(n) ซึ่ง room ir จะอยู่ในรูป h(n) = α₁δ(n-n₁) + α₂δ(n-n₂) + ... + α_Lδ(n-n_L) เมื่อ L คือ ความยาวของ room ir (หรือจำนวน echo นั่นแหละครับ) ถ้า x_i(n) คือ สัญญาณต้นฉบับ เราจะได้สัญญาณที่ฝังลายน้ำ x^w_i(n) = x_i(n)*f(n) เมื่อสัญลักษณ์ * แทน linear convolution ตรงนี้เห็นว่า ขั้นตอนต่าง ๆ เหมือนเทคนิคในตระกูล echo-hiding ทั่ว ๆ ไป ต่างกันแค่วิธีการหา kernel function เท่านั้นเอง

block diagram ขั้นตอนการดึงลายน้ำออกมาแสดงดังรูป

จากรูป หลังหา cepstrum ของ x^w_i(n) แล้ว ก็เอา cepstrum นั่นมาหา cross-correlation กับ h₁(n - n¹₁ กับ h₂(n - n²₁ ถ้าหากบิตที่ฝังอยู่คือ "1" เราจะเห็น peak ที่ n₁ ของ d₁(n) แต่ไม่เห็นของ d₂(n) ดังรูป

ถ้า σ_wn1 เป็น ส่วนเบี่ยงเบนมาตรฐานของ d₁(n) ยกเว้นค่าที่ n₁(n) เนื่องจากที่ตำแหน่งดังกล่าวเป็นค่า peak และ σ_wn2 เป็น s.d. ของ d₂(n) ยกเว้นที่ค่าสูงสุดเช่นกัน เราจะใช้ค่า r(i) = [d₁(max)/σ_wn1]/[d₂(max)/σ_wn2] เป็นตัวตัดสินใจว่าบิตที่ฝังคือ "0" หรือ "1" ถ้า r(i) > T (เป็น threshold ค่าหนึ่ง) เราจะบอกว่าบิตที่ฝังอยู่คือ "1" แต่ถ้า r(i) < T บิตที่ฝังคือ "0"

ผลการทดลอง: รูปด้านล่างแสดงความสัมพันธ์ระหว่าง dl = sqrt[(l_x1-l_x2)² + (l_y1-l_y2)² + (l_z1-l_z2)²] กับ correct response ของเพลง S01 - S04 เห็นว่า ยิ่ง dl น้อย correct response จะยิ่งดี และสมบัติ imperceptibility จะดีมากถ้า dl < 15

การทดลองที่เลือกใช้ dl = 8.378 เมื่อผ่านการโจมตีแบบต่าง ๆ แล้วพบว่า error bit rate < 4% กราฟด้านล่างแสดง ratio curve ก่อนและหลังการโจมตี

Create Date : 16 กรกฎาคม 2556

Last Update : 16 กรกฎาคม 2556 9:29:39 น.

0 comments

Counter : 1140 Pageviews.

Pantip.com | PantipMarket.com | Pantown.com | © 2004 BlogGang.com allrights reserved.