creatio ex nihilo

ศล
Location :
กรุงเทพ Thailand

[Profile ทั้งหมด]

ฝากข้อความหลังไมค์
Rss Feed
Smember
ผู้ติดตามบล็อก : 85 คน [?]




Group Blog
 
All Blogs
 
Friends' blogs
[Add ศล's blog to your web]
Links
 

 
EMD and Psychoacoustic Model Based Watermarking for Audio

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

เนื้อหาตอนนี้ผมสรุปจากบทความในชื่อเดียวกันของ Lang Wang, Sabu Emmanue กับ Mohan S. Kankanhalli จาก IEEE International Conference on Multimedia and Expo (ICME) ปี 2010 ที่ Suntec City

ผู้เขียนอาศัยเทคนิค EMD (Empirical Mode Decomposition) ในการแยกสัญญาณชนิด multi-component ออกเป็นเซ็ตของ IMFs (Intrinsic Mode Functions)

          

เมื่อ P(t) คือ สัญญาณที่เราจะแยก และแยกได้ cn หมายถึง IMF ตัวที่ n ของสัญญาณ และ rm(t) เป็น final residue ซึ่งเป็น monotonic function นอกจากนี้ มีการศึกษาพบว่า final residue มีเสถียรภาพต่อสัญญาณรบกวนแบบ Gauss และการบีบอัด MPEG รูปด้านล่างแสดงตัวอย่าง N = 8 หรือมี IMF 8 ตัว


ไอเดียสำคัญของวิธีนี้คือ การฝังข้อมูลโดยการดัดแปลง rm(t) ครับ วิธีการฝังข้อมูลที่ผู้เขียนเสนอเขียนเป็น block diagram ได้ดังรูป


เริ่มจากป้อนสัญญาณเสียง X(t) ซึ่งเป็นสัญญาณแบบ PCM เข้าไปยัง analysis filterbank ในที่นี้คือ polyphase filterbank (คิดคร่าว ๆ ว่าเหมือน DFT ที่แก้จุดอ่อนเรื่อง leakage กับ scalloping loss) ซึ่ง filterbank ตัวนี้จะกระจายสัญญาณต้นฉบับออกมา M = 32 subbands คือ S0(t) จนถึง SM-1(t) ต่อมา แต่ละ subband ยังถูกแบ่งออกเป็น segment อีก NS segments โดยแต่ละ segment มีแซมเปิ้ล J ตัว ถ้าเราเขียน Si,j(t) แทนแซมเปิ้ลที่อยู่ใน segment ที่ j ของ subband ที่ i เราจะได้ Si,j(t) = Si(j*J + t) เมื่อ t = 0, 1, ..., J-1 และ j = 0, 1, ..., NS-1

block ที่เขียนว่า Watermark Embedding Domain Control นั้น หน้าที่ของมันคือเลือกว่าจะฝังลายน้ำลงใน segment ไหน สมมติเราบอกว่า ส่วนที่เหมาะสมสำหรับการฝังลายน้ำคือ subband ที่ î และ segment ที่ ĵ ฉะนั้น segment ที่เราจะทำการฝังลายน้ำคือ Ŝi,j(t) := Si,j(t)i∈î, j∈ĵ

ต่อมาเราแยก Ŝi,j(t) ด้วยเทคนิค EMD โดยไม่ไปยุ่งอะไรกับ IMFs แต่จะแก้ไขเฉพาะ rm(t) ตาม watermark bit Wi(j) (ซึ่งมีค่า +1 หรือ -1) โดยการลบ rm,i,j(t) ทิ้ง แล้วใส่ αWi(j) เข้าไปแทน เมื่อ α คือ watermark strength, เราได้

          

ค่าของ watermark strength หาจากการใช้ psychoacoustic model คำนวณ SMR ของแต่ละ segment ที่ทำให้ความสัมพันธ์นี้เป็นจริง

          

หลังจากนั้น เอาสัญญาณที่ใส่ลายน้ำแล้วในแต่ละ subband มารวมกันด้วย synthesis filterbank เพื่อให้ได้ Xw(t) สัญญาณเสียงที่มีลายน้ำ เป็นอันเสร็จสิ้นพิธี ผู้เขียนบอกว่า ความยาวของ Ŝi,j(t) มีผลกระทบต่อ performance ของระบบ ถ้า Ŝi,j(t) ยิ่งยาว จะทำให้ capacity ลด แต่หูคนเราจะตรวจจับความแตกต่างระหว่างก่อนและหลังฝังลายน้ำได้ยาก

block diagram สำหรับกระบวนการดึงลายน้ำออกมาแสดงดังรูปด้านล่าง ส่วนใหญ่ทำเหมือนเดิมนะครับ เพราะจุดที่เราสนใจอยู่ที่ rm(t) หลังจากที่ได้ rwm,i,j(t) เราก็รวมค่าของ rwm,i,j(t) ตั้งแต่ที่ t = 0 จนถึง J-1 (นั่นเท่ากับพูดว่า รวมค่า rm(t) ทั้ง segment) ถ้าค่าดังกล่าวมากกว่าหรือเท่ากับ 0 เราก็จะบอกว่า w*i,j = 1 แต่ถ้าค่าดังกล่าวน้อยกว่า 0 ค่า w*i,j = -1 และค่า w* นี่ก็คือ watermark message ที่เราดึงออกมาจากเสียง Xw(t)


ผลการทดลอง ได้ SDG ≈ -0.15, BER แบบเฉลี่ย ≈ 0.0153 เมื่อความยาวของ segment สำหรับทำ EMD เปลี่ยนจาก 32 ถึง 1,024 แซมเปิ้ล, แต่ถ้าใช้ความยาวของ segment เท่ากับ 32 แซมเปิ้ลและโจมตีด้วยการบีบอัด MP3 และเพิ่มสัญญาณรบกวนแบบ Gauss ค่า BER ≈ 0.0143 และ 0.0115 ตามลำดับ


Create Date : 14 กรกฎาคม 2556
Last Update : 15 กรกฎาคม 2556 1:24:27 น. 0 comments
Counter : 2971 Pageviews.

ชื่อ : * blog นี้ comment ได้เฉพาะสมาชิก
Comment :
  *ส่วน comment ไม่สามารถใช้ javascript และ style sheet
 
 Pantip.com | PantipMarket.com | Pantown.com | © 2004 BlogGang.com allrights reserved.