Bloggang.com : ศล - EMD and Psychoacoustic Model Based Watermarking for Audio

Bloggang.com : weblog for you and your gang

creatio ex nihilo

ศล

Location :
กรุงเทพ Thailand

[Profile ทั้งหมด]

ฝากข้อความหลังไมค์

Smember

ผู้ติดตามบล็อก : 85 คน [?]

Group Blog

All Blogs

Friends' blogs

Webmaster - BlogGang

[Add ศล's blog to your web]

Links

BlogGang.com

EMD and Psychoacoustic Model Based Watermarking for Audio

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

เนื้อหาตอนนี้ผมสรุปจากบทความในชื่อเดียวกันของ Lang Wang, Sabu Emmanue กับ Mohan S. Kankanhalli จาก IEEE International Conference on Multimedia and Expo (ICME) ปี 2010 ที่ Suntec City

ผู้เขียนอาศัยเทคนิค EMD (Empirical Mode Decomposition) ในการแยกสัญญาณชนิด multi-component ออกเป็นเซ็ตของ IMFs (Intrinsic Mode Functions)

เมื่อ P(t) คือ สัญญาณที่เราจะแยก และแยกได้ c_n หมายถึง IMF ตัวที่ n ของสัญญาณ และ r_m(t) เป็น final residue ซึ่งเป็น monotonic function นอกจากนี้ มีการศึกษาพบว่า final residue มีเสถียรภาพต่อสัญญาณรบกวนแบบ Gauss และการบีบอัด MPEG รูปด้านล่างแสดงตัวอย่าง N = 8 หรือมี IMF 8 ตัว

ไอเดียสำคัญของวิธีนี้คือ การฝังข้อมูลโดยการดัดแปลง r_m(t) ครับ วิธีการฝังข้อมูลที่ผู้เขียนเสนอเขียนเป็น block diagram ได้ดังรูป

เริ่มจากป้อนสัญญาณเสียง X(t) ซึ่งเป็นสัญญาณแบบ PCM เข้าไปยัง analysis filterbank ในที่นี้คือ polyphase filterbank (คิดคร่าว ๆ ว่าเหมือน DFT ที่แก้จุดอ่อนเรื่อง leakage กับ scalloping loss) ซึ่ง filterbank ตัวนี้จะกระจายสัญญาณต้นฉบับออกมา M = 32 subbands คือ S₀(t) จนถึง S_M-1(t) ต่อมา แต่ละ subband ยังถูกแบ่งออกเป็น segment อีก N_S segments โดยแต่ละ segment มีแซมเปิ้ล J ตัว ถ้าเราเขียน S_i,j(t) แทนแซมเปิ้ลที่อยู่ใน segment ที่ j ของ subband ที่ i เราจะได้ S_i,j(t) = S_i(j*J + t) เมื่อ t = 0, 1, ..., J-1 และ j = 0, 1, ..., N_S-1

block ที่เขียนว่า Watermark Embedding Domain Control นั้น หน้าที่ของมันคือเลือกว่าจะฝังลายน้ำลงใน segment ไหน สมมติเราบอกว่า ส่วนที่เหมาะสมสำหรับการฝังลายน้ำคือ subband ที่ î และ segment ที่ ĵ ฉะนั้น segment ที่เราจะทำการฝังลายน้ำคือ Ŝ_i,j(t) := S_i,j(t)_{i∈î, j∈ĵ}

ต่อมาเราแยก Ŝ_i,j(t) ด้วยเทคนิค EMD โดยไม่ไปยุ่งอะไรกับ IMFs แต่จะแก้ไขเฉพาะ r_m(t) ตาม watermark bit W_i(j) (ซึ่งมีค่า +1 หรือ -1) โดยการลบ r_m,i,j(t) ทิ้ง แล้วใส่ αW_i(j) เข้าไปแทน เมื่อ α คือ watermark strength, เราได้

ค่าของ watermark strength หาจากการใช้ psychoacoustic model คำนวณ SMR ของแต่ละ segment ที่ทำให้ความสัมพันธ์นี้เป็นจริง

หลังจากนั้น เอาสัญญาณที่ใส่ลายน้ำแล้วในแต่ละ subband มารวมกันด้วย synthesis filterbank เพื่อให้ได้ X^w(t) สัญญาณเสียงที่มีลายน้ำ เป็นอันเสร็จสิ้นพิธี ผู้เขียนบอกว่า ความยาวของ Ŝ_i,j(t) มีผลกระทบต่อ performance ของระบบ ถ้า Ŝ_i,j(t) ยิ่งยาว จะทำให้ capacity ลด แต่หูคนเราจะตรวจจับความแตกต่างระหว่างก่อนและหลังฝังลายน้ำได้ยาก

block diagram สำหรับกระบวนการดึงลายน้ำออกมาแสดงดังรูปด้านล่าง ส่วนใหญ่ทำเหมือนเดิมนะครับ เพราะจุดที่เราสนใจอยู่ที่ r_m(t) หลังจากที่ได้ r^w_m,i,j(t) เราก็รวมค่าของ r^w_m,i,j(t) ตั้งแต่ที่ t = 0 จนถึง J-1 (นั่นเท่ากับพูดว่า รวมค่า r_m(t) ทั้ง segment) ถ้าค่าดังกล่าวมากกว่าหรือเท่ากับ 0 เราก็จะบอกว่า w*_i,j = 1 แต่ถ้าค่าดังกล่าวน้อยกว่า 0 ค่า w*_i,j = -1 และค่า w* นี่ก็คือ watermark message ที่เราดึงออกมาจากเสียง X^w(t)

ผลการทดลอง ได้ SDG ≈ -0.15, BER แบบเฉลี่ย ≈ 0.0153 เมื่อความยาวของ segment สำหรับทำ EMD เปลี่ยนจาก 32 ถึง 1,024 แซมเปิ้ล, แต่ถ้าใช้ความยาวของ segment เท่ากับ 32 แซมเปิ้ลและโจมตีด้วยการบีบอัด MP3 และเพิ่มสัญญาณรบกวนแบบ Gauss ค่า BER ≈ 0.0143 และ 0.0115 ตามลำดับ

Create Date : 14 กรกฎาคม 2556

Last Update : 15 กรกฎาคม 2556 1:24:27 น.

0 comments

Counter : 2971 Pageviews.

Pantip.com | PantipMarket.com | Pantown.com | © 2004 BlogGang.com allrights reserved.