Bài thuyết trình Đồ án Nén âm thanh file *.wav theo chuẩn MPEG

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

TRƯỜNG ĐẠI HỌC THUỶ SẢN

KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN TỐT NGHIỆP

Đề tài:

NÉN ÂM THANH FILE *.WAV THEO CHUẨN MPEG

Giáo viên hướng dẫn : TS Dư Thanh Bình

Sinh viên thực hiện : Đỗ Văn Tuấn

PHẦN I LÝ THUYẾT

CHƯƠNG1 CÁC KIẾN THỨC CƠ BẢN VỀ ÂM THANH

I SÓNG ÂM

CHƯƠNG 2 WAVE FILE

I CẤU TRÚC WAVE FILE

CHƯƠNG 3 LÝ THUYẾT XỬ LÝ TÍN HIỆU SỐ

I PHÉP BIẾN ĐỔI FOURIER RỜI RẠC

CHƯƠNG 4 GIỚI THIỆU VỀ MPEG

I CÁC KHÁI NIỆM TRONG ÂM THANH MPEG

II CÁC THÔNG SỐ

CHƯƠNG 5 CÁC GIẢI THUẬT NÉN ÂM THANH

I CÁC GIẢI THUẬT NÉN KHÔNG CÓ TỔN THẤT

II CÁC GIẢI THUẬT NÉN CÓ TỔN THẤT

PHẦN II THIẾT KẾ CHƯƠNG TRÌNH

CHƯƠNG 6 SƠ ĐỒ KHỐI CỦA GIẢI THUẬT

I S Ơ ĐỒ KHỐI

CHƯƠNG 7 GIAO DIỆN VÀ THUYẾT MINH CHƯƠNG TRÌNH

I GIAO DIỆN

II KẾT LUẬN VÀ H ƯỚNG PHÁT TRIỂN ĐỀ TÀI

Sóng âm.

• Sóng âm là một loại sóng cơ có biên độ dao động nhỏ mà

thính giác nhận biết được. Thí dụ dao động phát ra từ dây đàn,

mặt trống.. đang rung động.

• Trong không khí cũng như trong mọi chất khí khác, những

dao động truyền đi dưới dạng sóng dọc, khi đến tai người

những dao động có tần số từ 16 đến 20000 Hz sẽ gây cảm giác

đặc biệt về âm.

• Các dao động đàn hồi có tần số f>20.000 Hz là sóng siêu

âm.

• Các dao động đàn hồi có tần số f<16 Hz là sóng hạ âm.

• Mỗi âm có một tần số riêng, đơn vị của tần số là héc (Hz)

với định nghĩa:”Héc là tần số của một qúa trình dao động âm

trong đó mỗi giây thực hiện được một dao động”.

1 Héc (Hz) = 1 dao động / 1 giây.

Cấu trúc của Wave File như sau

typedef struct {

WORD wFormatTag;

WORD nChannels;

DWORD nSamplesPerSec;

DWORD nAvgBytesPerSec;

WORD nBlockAlign;

} WAVEFORMAT;

Biến đổi Fourier của tín hiệu rời rạc:

• Biến đổi Fourier của dãy rời rạc.

• Đối với tín hiệu tuần hoàn.

• Phép biến đổi Fourier thuận.

• Phép biến đổi Fourier nghịch.

• Phép biến đổi nhanh Fourier(FFT).

N−1

X (k) = x(n).e ^{j(2kn)/ N}



k=0

Các khái niệm trong âm thanh MPEG.

• Hiệu ứng che (masking): nói đơn giản là âm lớn át âm bé, âm

mạnh át âm yếu.

• Ngưỡng nghe và mức nhạy cảm. “Ngưỡng nghe” là mức mà

dưới nó 1 âm thanh không thể nghe được. Hầu hết mọi người

đều nhạy cảm ở mức 2 đến 5 kHz. Một người có nghe được âm

thanh hay không tùy thuộc vào tần số của âm và độ to của âm

đó ở trên hay dưới ngưỡng nghe tại tần số đó. Tai nhạy cảm ở

mức 2 đến 5 kHz .

• Che tần số (Frequency Masking)

• Che nhất thời. (che thời gian)

Lược đồ mã hóa Perceptual Subban d .

Các thông số:

• Chuẩn MPEG cho phép ta chọn lựa các thông số cho việc nén

âm thanh tốt nhất phù hợp với ứng dụng mà ta sử dụng. • Lược

đồ mã hóa cho các loại là tổng quát. Các thông số có thể chọn

lựa trong bộ mã hóa MPEG bao gồm: Mode, Sampling

frequency, bitrate, và Layer.

Các giải thuật nén không có tổn thất

1. Mã hóa Huffman.

• Khởi tạo: đưa tất cả các node vào danh sách OPEN theo thứ

tự tại mọi thời điểm.

• Lặp lại cho đến khi danh sách OPEN chỉ còn một node bên

trái như sau:

• Từ danh sách OPEN, chọn hai node có xác suất thấp nhất,

tạo node cha cho chúng. Gán tổng các xác suất cho node cha

và đưa node cha vào danh sách OPEN. Gán các mã 0,1 vào

các nhánh của cây, xóa các node con khỏi danh sách OPEN.

2. Mã Huffman sửa đổi.

Bộ mã hóa

Bộ giải mã

Initialize_model(); Initialize_model();

while ((c = getc

(input)) != eof)

while ((c = decode

(input)) != eof)

{

encode(c, output); putc(c, output);

update_model(c); update_model(c);

}

3. Mã hóa số học.

• Ý tưởng: giả sử mẫu tự là [X,Y] và P(X) = 2/3

P(Y) = 1/3.

• Nếu ta chỉ quan tâm với chiều dài mã hóa là 2 thông điệp, thì

ta có thể ánh xạ tất cả thông điệp có thể có vào những đoạn

trong phạm vi [0..1]

X

Y

XX

XY

YX

YY

• Để mã hóa thông điệp, chỉ dùng vừa đủ số bit cần thiết cho

mỗi đoạn.

• Tương tự, ta có thể ánh xạ tất cả chiều dài 3 thông điệp vào

các đoạn trong [0..1].

• Nói chung, số bit được xác định bằng kích thước của đoạn.

4. Giải thuật Lempel-Ziv-Welch(LZW).

• Giả sử chúng ta muốn mã hóa cho một cuốn từ điển Tiế ng

Anh 159,000 từ. Như vậy mỗi từ cần 18 bit để mã hóa.

• Nhược:Dùng qúa nhiều bit. Chỉ làm việc cho ký tự tiếng

Anh.

• Giải pháp:Cần phải tìm một cách mã hóa cuốn từ điển cho

thích hợp.

w = NIL;

• Giải thuật:

while (read a character k)

{

if wk exists in the dictionary

w = wk;

else

add wk to the dictionary;

output the code for w;

w = k;

}

•

Các giải thuật nén có tổn thất.

1. Các phương pháp nén âm thanh đơn giản:

• Nén “silence”: dò các khoảng “yên lặng”, giống như mã hoá run-

length.

• LPC (Linear Predictive Coding).

• CELP (Code Excited Linear Predictor).

2. Nén âm thanh dùng mô hình ââm - tâm lý.

a. Hệ thống nghe và phát âm của con người.

• Phạm vi nghe được từ 20 Hz đến 20 kHz, nhạy cảm ở 2- 5kHz.

• Phạm vi phát âm bình thường từ 500 Hz đến 2 kHz.

b. Che tần số (Frequency masking)

•“Ngưỡng che” (Threshold masking):sinh ra từ hiệu ứng che, mỗi âm

với một tần số và mức to (dB) xác định sẽ có một “ngưỡng che”

c. Băng giới hạn

• Băng giới hạn có độ rộng là 100Hz đối với các tần số che < 500Hz,

và càng tăng lên đối với các tần số >500Hz.

d

.

Che nhất thời (Temporal masking)

:

che theo thời gian.

3. Giải thuật Nén âm thanh MPEG.

• Dùng bộ lọc thông để chia tín hiệu âm thanh thành các sub-

band theo tần số, tương ứng với 32 băng giới hạn → lọc sub-

band.

• Xác định số lượng che của mỗi band gây bởi các band lân

cận bằng các kết qủa bước 1 → mô hình âm - tâm lý.

• Nếu mức to của một băng mà nhỏ hơn ngưỡng che thì không

mã hóa nó.

• Ngược lại, xác định số bit cần thiết để mã hóa sao cho nhiễu

sinh ra bởi việc lượng tử hóa này thấp hơn đường cong che.

• Định dạng dòng dữ liệu bit :

Cấu hình mặc định

Set_default()

SƠ ĐỒ KHỐI.

Thay đổi hay giữ nguyên cấu hình

Đặt input và output file;

Mở input file và kiểm tra;

Wave_open();

Start compress ()

Open_bit_stream_w();

Memset();

Chuẩn bị vùng đệm

L3_psycho_initialise();

L3_subband_initialise();

L3_mdct_initialise();

L3_loop_initialise();

Khởi tạo mô hình âm-tâm lý

Tính các hệ số của bộ lọc tần số

Khởi tạo dữ liệu tính MDCT

Khởi tạo mảng pow43[i].0<i<1024

Chuẩn bị Frame dữ liệu

S

wave_get(buffer)<>0

Đ

Làm sạch buffer

L3_FlushBitstream()

Dùng mô hình âm-tâm lý để phân tích dữ liệu

L3_psycho_analise();

Đóng thiết bị ghi

Dùng bộ lọc nhiều pha để xử lý dữ liệu

L3_window_subband();

Close_bit_stream_w();

L3_filter_subband();

Đóng file nguồn

Wave_close();

Tính MDCT cho các đường ra nhiều pha

L3_mdct_sub();

Xác định số bit để mã hoá một mẫu dữ liệu

Kết thúc

L3_interation_loop();

Ghi frame vào dòng bit

L3_format_bitstream();

Giao diện chương trình

KẾT QUẢ ĐẠT ĐƯỢC

Đồ án tốt nghiệp đã hoàn thành các nhiệm vụ đề ra trong phạm vi

cho phép. Do điều kiện về thời gian cũng như trình độ còn hạn chế nên đồ

án này dừng lại ở mức nghiên cứu một số phương pháp nén âm thanh.

Trên cơ sở đó xây dựng phần mềm thử nghiệm nén âm thanh theo chuẩn

MPEG_I layer3. Mặt khác, do mới chỉ đánh giá âm thanh theo phương

pháp chủ quan nên chất lượng âm thanh sau khi nén chưa được như mong

muốn.

Thế nhưng những gì đạt được trong đồ án này chủ yếu là nhằm

giúp em có thể nắm bắt được vững hơn về mặt lý thuyết.

Các kết quả này rất quan trọng và hữu ích cho mọi hoạt động nghiên cứu

sau này.

Hướng phát triển

Từ những kết quả đạt được là cơ sở để em nghiên cứu tiếp và áp

dụng không chỉ nén âm thanh mà còn ứng dụng để nén nhiều dạng dữ liệu

khác.

Cuối cùng em xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo: TS

Dư Thanh Bình và các thầy cô trong khoa CNTT-ĐHBKHN và ĐHTS

đ

ã h

ướng dẫn và giúp đỡ tận tình để em hoàn thành đề tài này.