Bloggang.com : ศล - Audio Watermarking Based on Spread Spectrum Communication Technique

Audio Watermarking Based on Spread Spectrum Communication Technique

[สารบัญกลุ่มเรื่องที่กำลังศึกษา]

เนื้อหาตอนนี้ผมสรุปจากบทที่ 7 How could music contain hidden information? หนังสือ Applied Signal Processing: A MATLAB^TM-Based Proof of Concept (Springer, 2009) เขียนโดย C. Baras, N. Moreau กับ T. Dutoit

เราสามารถมอง watermarking ในสัญญาณเสียงเป็นเรื่องของปัญหาการส่งลำดับบิต 1 กับ 0 ผ่านช่องทางสื่อสารที่มี noise เยอะมากเป็นพิเศษได้ครับ โดยการมองแบบนี้ บิตที่เราจะส่งก็คือ watermark bit และ noise คือ สัญญาณเสียงนั่นเอง ฉะนั้น การทำ watermarking ก็เทียบเท่ากับการออกแบบตัวรับและตัวส่งที่สอดคล้องกับช่องทางพิเศษ รูปด้านล่างแสดงการมอง watermarking เป็นปัญหา communication ปัญหาหนึ่ง

สำหรับ watermarking เราต้องออกแบบ SNR ให้ต่ำมาก (SNR = P_signal/P_noise) เพื่อให้หูคนไม่สามารถได้ยินข้อมูลที่จะฝังหรือซ่อน ผลสืบเนื่องจาก SNR ต่ำคือ bit rate ต่ำตาม (ดีที่สุดที่เป็นไปได้อยู่ที่หลักร้อยบิตต่อวินาที) และ error rate มีค่าสูง (ประมาณ 10^-3 เมื่อเทียบกับระบบสื่อสารอย่าง ADSL ซึ่งอยู่ที่ 10^-6)

Spread Spectrum Signals

เริ่มแรก การสื่อสารด้วยเทคนิค Spread spectrum (SS) ใช้ในงานทางด้านการทหาร เพราะข้อเด่นของมันคือ 1. วิธีนี้ทนทาน (robust) ต่อการรบกวนในช่วงความถี่แคบ ๆ, 2. เป็นการส่งแบบแอบ ๆ ซ่อน ๆ และ 3. ความปลอดภัยในการส่งข้อมูล

สัญญาณ SS มีลักษณะเฉพาะอยู่ 2 ประการ

1. bandwidth ของสัญญาณ SS ถูกทำให้กว้างกว่า bandwidth ของข้อมูลเดิมอย่างมาก (ทั่วไปประมาณ 10-100 เท่าสำหรับงานด้านพาณิชย์ และประมาณ 1,000 - 10⁶ เท่า สำหรับงานการทหาร) การที่พลังงานมันแผ่กระจาย (spread) ในย่านที่กว้างนั้น ทำให้ PSD ต่ำลง ทำให้สัญญาณ SS มีโอกาสไปตีกับสัญญาณย่านความถี่แคบน้อยลง การสื่อสารย่านความถี่แคบแทบทำอะไรระบบ SS ไม่ได้เลย เพราะว่าตัวรับของระบบจะรวบรวมสัญญาณตลอดย่านที่กว้างมาก ๆ ในการดึงข้อมูลออกมา ข้อดีอีกประการจาก PSD ต่ำคือ เราสามารถทำให้มันต่ำกว่า PSD ของ noise ได้ อันนี้แหละครับคือลักษณะเด่นในการส่งข้อมูลแบบแอบ ๆ ซ่อน ๆ ของมัน

2. มีการใช้ spreading sequence (บางทีก็เรียก spreading code หรือ pseudo-noise) ในการสร้างสัญญาณ SS ย่านความถี่กว้างจากข้อมูลที่จะส่ง ซึ่งโค้ด spreading sequence นี้จะต้องเป็นที่รู้กัน รู้ตรงกัน ทั้งฝั่งส่งและฝั่งรับ

ลักษณะ 2 อย่างนี้เป็นข้อดีใช่มั้ยครับ คำถาม ต้องเสียอะไรเป็นการแลกเปลี่ยนมั้ย? คำตอบ spectral efficiency หรือประสิทธิภาพของสเปกตรัมลดลง ประสิทธิภาพของสเปกตรัมนิยามจากอัตราส่วนระหว่างบิตเรตต่อ bandwidth ซึ่งเทคนิค SS จะให้ค่าที่ต่ำกว่า 1/5 ขณะที่เทคนิคมาตรฐานอื่น ๆ ให้ค่าเกือบ 1

Direct Sequence SS (DSSS)

ใน DSSS หรือ time hopping นั้น สัญญาณ DSSS จะสร้างจากการคูณแต่ละคาบเวลาของหนึ่งบิต (bit-sized period หรือ T_b) ของสัญญาณที่จะส่ง (ในที่นี้สัญญาณที่จะส่งคือ watermark) ด้วย pseudo-noise ที่ประกอบจากลำดับลำดับอย่างสุ่มของพัลซ์สี่เหลี่ยม ±1 ซึ่งมีคาบเท่ากับ T_c ดังรูป

รูปขวา บนสุดคือสัญญาณที่จะส่ง (watermark) มี T_b = 0.2 วินาที รูปกลางคือ pseudo-noise มี T_c = T_b/16 และรูปล่างคือสัญญาณ SS ที่ได้จากการคูณแต่ละคาบ T_b ของรูปบนด้วยรูปกลาง สำหรับรูปซ้าย แสดง PSD ของสัญญาณที่จะส่ง (หรือ รูปขวาบน) กับ PSD ของสัญญาณ SS เมื่อ T_c = T_b/4 และ T_b/16 ตามลำดับ เห็นว่า T_c ยิ่งต่ำ PSD ยิ่งต่ำ และที่ T_c = T_b/16 ต่ำกว่า PSD ของ noise

เราคำนวณ PSD ของสัญญาณ SS ได้ไม่ยาก หากถือว่าสัญญาณที่จะส่งนั้นเป็นรหัสไบนารี่สุ่มแบบ NRZ ที่ประกอบจากพัลซ์สี่เหลี่ยมคาบ T_b และแอมปลิจูด ± 1/T_b เราจะได้

PSD_NRZ(f) = [sinc²(fT_b)]/T_b

และเนื่องจากสัญญาณ SS เองก็เป็นสัญญาณ NRZ ที่พัลซ์มีคาบเท่ากับ T_c และแอมปลิจูด ± 1/T_b เราได้

PSD_SS(f) = [T_csinc²(fT_c)]/T_b² (ดังพล็อตในรูปซ้าย)

Communication Channel Design

เริ่มจากตัวส่ง (Emitter) โดยระบบสื่อสารแสดงดังรูปด้านล่าง สัญญาณเสียง x(n) ในที่นี้คือ noise ของระบบ มีอัตราสุ่มตัวอย่างเท่ากับ F_s Hz ถูกนำไปรวมเข้ากับ v(n) หรือสัญญาณ SS ของ watermark ที่สร้างมาจากการคูณ (หรือมอดูเลต) ลำดับของ watermark (b_m ∈ {0,1}) ที่มีความยาวของลำดับเท่ากับ M บิต กับ pseudo-noise (หรือ spreading sequence, c(n)) ที่ประกอบด้วยตัวอย่างจำนวน N_b ตัว และเขียนแทนด้วยเวกเตอร์ c = [c(0), c(1), ..., c(N_b - 1)]^T

เจ้าเวกเตอร์ c นี้เราอาจสังเคราะห์ขึ้นมาจากตัวสร้างลำดับสุ่มเทียมที่มีค่าใน {-1, +1} อาทิ Walsh-Hadamard sequence หรือ Gold sequence

เราไม่เอา b_m มาใช้โดยตรง เพราะ b_m ∈ {0, 1} เราก็แปลงมันเป็นสัญลักษณ์ชุดใหม่เรียกว่า a_m = 2b_m - 1 ∈ {-1, +1} แล้วใช้คูณกับ c ก็จะได้ v_m

v_m = a_mc

หรือพูดว่า v_m = +c ถ้า a_m = 1 (หรือ b_m = 1) และ v_m = -c ถ้า a_m = -1 (หรือ b_m = 0) หลังจากนั้นจะเอา v(n) มาขยายด้วย gain g เพื่อควบคุม SNR ระหว่าง v(n) กับ x(n)

จะเห็นว่า เราส่งข้อมูล (หรือฝังข้อมูล) 1 บิตทุก ๆ ตัวอย่าง N_b ตัว ดังนั้นบิตเรต R จึงคำนวณได้จาก F_s/N_b

มาดูทางด้านฝั่งรับ (Receiver) บ้าง จากรูป เราได้ y_m = gv_m + x_m หรือ y_m = +gc + x_m เมื่อ a_m = +1 และ y_m = -gc + x_m เมื่อ a_m = -1 โดย x_m = [x(mN_b, x(mN_b+1), ..., x(mN_b+N_b-1)]^T เป็นเวกเตอร์ของตัวอย่างของ noise (หรือเสียง) ในช่องทางสื่อสาร และ m คือ frame index

สำหรับบิตฝั่งรับหาได้จาก

(arg max = argument of the maximum, สัญลักษณ์ข้างบนหมายถึง ค่า b ที่ทำให้ P(b|y_m) มีค่าสูงสุด)

ในกรณีที่ช่องทางการสื่อสารเป็นช่องแบบ AWGN (additive white Gaussian noise) หรือช่องทางที่บวก white noise (หมายถึงสัญญาณสุ่มที่มี PSD คงที่) ซึ่งแอมปลิจูดของ noise มีการกระจายแบบปกติ (หรือ Gaussian distribution) ค่าดังกล่าวจะสมมูลกับการประมาณจากเครื่องหมายของผลคูณสเกล่า (α_m) ระหว่าง y_m กับ c

เพราะ เมื่อแทนที่ P(b|y_m) ตามความสัมพันธ์ของเบส์ เราได้

โดยที่ P(y_m) เป็น priori probability ของ y_m ซึ่งไม่มีผลกระทบต่อการประมาณค่า b_m และ P(b) คือ priori probability ของแต่ละค่าที่เป็นไปได้ของ b และในกรณีที่ความเป็นไปได้นี้เท่ากัน มันก็จะไม่มีผลต่อการประมาณ b_m ด้วยเช่นกัน ฉะนั้น

ในกรณีช่องทางสื่อสารแบบ AWGN นั้น x_m เป็น ตัวแปรสุ่ม Gaussian แบบ N_b-dimensional multivariate ที่มีค่าเฉลี่ยเท่ากับ 0 และเมตริกซ์ความแปรปรวนร่วม (covariance matrix) เท่ากับ σ_x²I เมื่อ I คือเมตริกซ์เอกลักษณ์ N_b มิติ ทีนี้ y_m ก็เป็นตัวแปรสุ่ม Gaussian ที่มี N_b ตัวแปรด้วย เพราะ y_m = gv_m + x_m โดยมีค่าเฉลี่ยเท่ากับ a_mgc และเมตริกซ์ความแปรปรวนร่วมเดียวกับ x_m จึงได้

หรือ

เนื่องจาก b ∈ {0, 1} นั่นทำให้ (2b - 1)² = 1 ไม่ว่า b จะมีค่าเท่าไร บรรทัดสุดท้ายของสมการนี้จึงบอกว่า เราสามารถหา b_m ได้จาก เครื่องหมายของผลคูณเชิงสเกล่า α_m ระหว่าง y_m กับ c

รูปต่อไปนี้แสดงภาพกรณีฝัง b_m = 1 ลงในเวกเตอร์เสียง x ได้เวกเตอร์หลังจากฝังแล้ว y ซึ่งคำนวณจาก gv + x หรือ gc + x เพราะ b_m = 1 และทางฝั่งรับจะตีความว่า "1" ถ้า α > 0 รูปซ้ายแสดงกรณี <x,c> เป็นบวก และไม่ว่า g จะเป็นค่าบวกเท่าไรก็ตาม ย่อมทำให้ α > 0 ฉะนั้น b_m = 1 นั่นคือดึงหรือรับข้อมูลได้ตรงกับที่ฝังหรือส่ง สำหรับรูปขวา เป็นกรณีที่ b_m = 0 เนื่องจาก <x,c> เป็นค่าลบ และ g น้อยเกินไป กรณีนี้ดึงหรือรับข้อมูลได้ผิดนะครับ ถ้าอยากให้รับได้ถูก ต้องหาทางทำให้ g > <x,c>/|c|²

Error Rate

PDF ของ α_m ที่ g = 1 และ σ_x² = 20 dB แสดงดังรูป เมื่อค่า R เท่ากับ 50, 100 และ 120 ตามลำดับ (R = F_s/N_b โดยทั่วไป F_s เป็นค่าคงที่ 44.1 kHz ฉะนั้น อาจพูดว่า กราฟนี้พล็อตที่ความยาว N_b ต่าง ๆ กัน) รูปซ้ายคือกรณี b = 0 รูปขวา b = 1

α_m เป็นตัวแปรสุ่ม Gaussian มิติเดียว ที่มีค่าเฉลี่ย (2b_m - 1)g และความแปรปรวน σ_x²/|c|²

จะเห็นได้ว่า ความน่าจะเป็นที่ α_m เป็นบวกเมื่อ b_m = 0 และความน่าจะเป็นที่ α_m เป็นลบเมื่อ b_m = 1 ไม่เท่ากับศูนย์ (หมายความว่า มันมีโอกาสที่จะรับหรือดึงบิตออกมาได้ผิดค่า) และเมื่อค่า R มากขึ้น (กราฟ PDF เตี้ยลง และกระจายกว้างขึ้น) ความน่าจะเป็นดังกล่าวทั้ง 2 กรณีก็เพิ่มมากขึ้นตาม ความน่าจะเป็นที่จะอ่านค่าได้ผิดพลาดนี้หาได้จาก

ถ้าสัญลักษณ์แต่ละตัวมี priori probability เดียวกัน (นั่นคือ P(b=1) = P(b=0)) ความน่าจะเป็นของ error สามารถประมาณโดยใช้กราฟด้านบน มีค่าเท่ากับ พื้นที่ซ้อนทับกันของ P(α_m|b_m = 0) และ P(α_m|b_m = 1) ซึ่งเราจะคำนวณ P_e ได้

โดยที่

ในสมการนี้เราใช้ σ_c² = |c|²/N_b = กำลังของ pseudo-noise หรือ spreading sequence โดยประมาณ

เห็นว่า ความน่าจะเป็นที่จะอ่านค่าผิดขึ้นอยู่กับ SNR ของ watermarking (= g²σ_c²/σ_x²) กับ R รูปด้านล่างแสดงกราฟ ซ้าย พล็อต Q(√u) กับ u ขวาพล็อต P_e(R) กับ R ที่ค่า SNR ต่าง ๆ กัน เมื่อ F_s = 44.1 kHz

Informed Watermarking

ในระบบสื่อสารทั่วไปเราไม่รู้ noise ของช่องทางสื่อสารล่วงหน้า จึงเอามามันมาใช้ประโยชน์ในการปรับ gain ตอนเข้ารหัสไม่ได้ แต่สำหรับ watermarking นั้น เป็นไปได้ครับ เพราะ noise ในที่นี้คือเสียงที่เราจะใช้ซ่อนข้อมูล

เราจะเริ่มด้วยการดูวิธีตรงไปตรงมาอย่างการปรับ gain เพื่อให้ตรวจรับข้อมูลได้อย่างไม่มีข้อผิดพลาด นั่นคือ ทางฝั่งส่งหรือฝั่งเข้ารหัสจะต้องมีการปรับค่า g ซึ่งเป็นฟังก์ชั่นของเวลาเพื่อชดเชยความผันผวนของกำลังแบบทันทีทันใดในสัญญาณเสียง และรักษา SNR ให้คงที่ ซึ่งทำได้ง่าย ๆ โดยการประมาณค่า σ_x² ของเฟรมเสียง (~ 20 ms) แล้วกำหนดค่า g ให้แปรตาม σ_x

ถ้าย้อนกลับไปดูกราฟ PDF ของ α เห็นว่า เราทำให้ error หมดไปได้ด้วยการทำให้กราฟทั้ง 2 แยกออกห่างจากกัน และทำได้โดยการเพิ่มค่า g ถ้าเราปรับให้ค่า g ของแต่ละเฟรมสอดคล้องกับ

ผลที่ได้คือไม่มี error ทางฝั่งรับข้อมูล (ต่อจากนี้ ค่า g จะเปลี่ยนไปในแต่ละเฟรม เราจะเขียนแทน g ของแต่ละเฟรมด้วย g_m) วิธีกำหนดค่า g อาจทำโดย ถ้า β_m มีเครื่องหมายเดียวกับ a_m ค่า g_m เป็นค่าบวกเท่าไรก็ได้ แต่ถ้า β_m มีเครื่องหมายตรงกันข้ามกับ a_m ก็กำหนดให้ค่า g_m = -β_m/a_m

อย่างไรก็ตาม ในทางปฏิบัติ ช่องทางสื่อสารก็จะเพิ่ม noise เข้ามาอีกอยู่ดี ฉะนั้น เวกเตอร์ที่ฝั่งรับได้รับจึงไม่ใช่ y_m แต่เป็น y_m+p_m ทำให้

จึงต้องมีการเพิ่มระยะ Δ_g เข้าไปด้วย (Δ_g กำหนดจากความแปรปรวนโดยประมาณของสัญญาณรบกวนของช่องทางสื่อสาร) เพื่อความมั่นใจและปลอดภัยว่าระบบยังคงเป็น error-free ฉะนั้น g_m จะต้องผ่านเงื่อนไข

รูปด้านล่างแสดง inform watermarking ของเวกเตอร์เสียง x ที่ถูกฝังด้วย "1" ได้ผลลัพธ์เป็นเวกเตอร์ y = gv + x = gc + x ซึ่งเราต้องเลือกค่า g เพื่อทำให้ y ตกอยู่ในพื้นที่แรเงาสีเทาขวามือ (ถ้าไม่ตกในพื้นที่นี้ ตัวรับจะไม่อ่านได้ค่า "1") รูปแสดงรายละเอียด 2 กรณี กรณีแรก x⁽¹⁾ เราเลือกค่า g ที่ไม่ติดลบอะไรก็ได้ เช่น 0 เวกเตอร์ y ก็ตกอยู่ในพื้นที่สีเทา สำหรับกรณีที่สอง x⁽²⁾ เราต้องเลือกเค่า g สูง ๆ และเพื่อรองรับ noise อื่น ๆ ในช่องทางสื่อสาร ระยะห่าง 2Δ_g ถูกนำมาใช้เป็นช่องว่างระหว่างการตัดสินใจ "1" หรือ "0" ของฝั่งรับ

แน่นอนครับ ปัญหาที่เกิดจากการทำให้ error-free ด้วยวิธีนี้คือ คุณภาพเสียงของ y จะต่ำและเสียงผิดเพี้ยนจากการเพิ่ม gv ที่ g มาก ๆ เข้ากับ x ทางออกต่อปัญหานี้คือใช้สมบัติรับรู้เสียงของมนุษย์เข้ามาช่วยทำให้เราไม่ได้ยินข้อมูล watermark วิธีการคือ เราใช้ Psychoacoustic Model (PAM) มาช่วยในการคำนวณ masking threshold (รายละเอียดของ PAM ผมจะเขียนถึงในบล็อกตอนอื่นนะครับ และเนื้อหาตามหนังสือบทนี้ ผู้เขียนถือว่าผู้อ่านรู้จัก PAM มาเป็นอย่างดีแล้ว) นั่นคือ ถ้า PSD ของ watermark S_w(f) อยู่ต่ำกว่า PSD ของ masking threshold Φ(f) มันจะทำให้เราไม่ได้ยิน watermark หรือพูดอีกอย่างหนึ่งว่า เสียงต้นฉบับไม่ถูกรบกวน และเนื่องจากประสิทธิภาพของระบบ watermarking เป็นฟังก์ชั่นของ SNR ฉะนั้น ประสิทธิภาพดีสุดที่เกิดขึ้นที่ S_w(f) = Φ(f)

เราสามารถทำได้โดยเอาฟิลเตอร์ที่จะดัดแปลงองค์ประกอบความถี่ตามการรับรู้ G(f) หรือ perceptual shaping filter ไปแทนที่ gain g ดังรูป

โดยความนิยมนั้น G(f) เป็น all-pole filter:

ถ้า v(n) ของฟิลเตอร์มีลักษณะแบบเดียวกับ white noise (ค่าเฉลี่ยเท่ากับศูนย์และความแปรปรวนสม่ำเสมอ) การปรับสัมประสิทธิ์ของฟิลเตอร์เพื่อให้ output w(n) ของมันมี PSD S_w(f) นั้น เป็นปัญหาสังเคราะห์หรือปัญหาออกแบบฟิลเตอร์ทั่ว ๆ ไป (แก้ชุดของสมการเชิงเส้น Yule-Walker) ทางด้านฝั่งรับ ก็ต้องเพิ่ม G^-1(f) ก่อน demodulator แต่ทีนี้มีปัญหาว่า ฝังรับไม่มี x(n) (เป็น watermarking ชนิด blind) ซึ่ง x(n) เป็นตัวที่เราใช้สร้าง G(f) ฉะนั้น G^-1(f) จึงต้องสร้างขึ้นมาแบบประมาณ ๆ จาก y(n) โดยความแม่นยำของตัว G^-1(f) แบบประมาณนี้ขึ้นอยู่กับ 1. robustness ของ PAM ต่อ watermark และ 2. noise อื่น ๆ ในช่องทางสื่อสาร

หลังจากนั้น เราคำนวณ b_m คล้ายเดิม แต่คราวนี้เราดูเครื่องหมายของ <z_m,c> แทน เมื่อ z(n) คือ output ของ G^-1(f) ถ้าเราถือว่าหรือสมมติว่า G^-1(f) ที่อยู่ ณ ฝั่งรับนั้นสามารถถูกสร้างให้เป็นอินเวิร์สของ G(f) ได้จริง ๆ เราจะได้ z_m = v_m + r_m เมื่อ r(n) คือ x(n) หลังจากผ่าน G^-1(f)

การใช้ G^-1(f) (มีชื่อเรียก zero-forcing equalizer) จะส่งผลให้ SNR ที่ output ของมันมีค่าต่ำมาก กล่าวคือ กำลังงานของสัญญาณ v(n) มีค่าน้อย ๆ เมื่อเทียบกับกำลังงานของสัญญาณเสียงที่ผ่าน equalizer หรือ r(n) เนื่องจาก PSD ของ v(n) กับ r(n) แตกต่างกัน ดังนั้น จึงเป็นไปได้ที่จะฟิลเตอร์ z(n) ในแบบที่ผลลัพธ์จากการฟิลเตอร์เพิ่มค่า SNR ซึ่งทำได้โดยการขยายองค์ประกอบสเปกตรัมของ z(n) ที่อยู่ภายใต้ v(n) และลดทอนองค์ประกอบสเปกตรัมของ z(n) ที่อยู่ภายใต้ r(n) หน้าที่ดังกล่าวเป็นของ FIR Wiener filter H(z) ดังรูปข้างบนที่เราเอาไปต่อท้าย G^-1(f) ในส่วนของการออกแบบฟิลเตอร์ผมจะเขียนถึงอีกทีในบล็อกตอนอื่น อันที่จริง เนื้อหาในบทนี้ หลังจากผู้เขียนแนะนำ Wiener filter แสดงสมการ transfer function กับ ชุดสมการ Wiener-Hopf แล้วก็จบในภาคทฤษฎีเลยครับ

Create Date : 05 พฤษภาคม 2556
Last Update : 6 พฤษภาคม 2556 16:26:38 น.
Counter : 3541 Pageviews.

0 comments

	: กะว่าก๋าแนะนำหนังสือ - ชัมบาลา : กะว่าก๋า (11 ม.ค. 2568 05:42:07 น.)		BookWalker Taiwan ประกาศอันดับ BL e-Book ขายดี ประจำปี 2024 iamZEON (12 ม.ค. 2568 18:59:46 น.)
	ทนายอ้วนจัดดอกไม้ - จัดดอกไม้ง่ายๆ – แจกันแวนด้าหลายสี ทนายอ้วน (6 ม.ค. 2568 15:58:07 น.)		#สมเด็จพระอริยวงศาคตญาณ สมเด็จพระสังฆราช สกลมหาสังฆปริณายก ประทานพระคติธรรม เนื่องในวันเด็กแห่งชาติ newyorknurse (12 ม.ค. 2568 00:10:07 น.)

Zol.BlogGang.com

ศล

Location :
กรุงเทพ Thailand

[ดู Profile ทั้งหมด]

ผู้ติดตามบล็อก : 85 คน [?]

บทความทั้งหมด