Buku yang berjudul Digital Forensic-Practical Guidelines for Computer Investigation oleh Muhammad Nuh Al-Azhar (jakarta, 2012) menjadi rujukan yang sangat penting lho. Mengingat profil beliau yang sangat mumpuni dibidang digital forensic, kalau ada versi hard nya mending bisa kalian beli saja. Pada artikel ini penulis yang memang sedang berkutat pada signal digital membutuhkan referensi mengenai prinsip cara kerja suara manusia yaitu
Menyebutkan bahwa pada prinsipnya suara terdiri dari beberapa komponen yaitu, pitch, Formant dan spectogram. Komponen ini dapat digunakan untuk mengidentifikasi karakteristik suara seseorang untuk kepentingan voice recognition dengan menggunakan potongan dari rekaman suara yang dianalisis melalui parameter pitch, formant dan spectogram untuk menunjukkan adanya keidentikan
- Pitch: Masing-masing orang memiliki pitch yang khas (habitual pitch) yang sangat dipengaruhi oleh aspek fisiologis larynx manusia (Tolga et al., 2006). Pada kondisi pembicaraan normal, level habitual pitch berkisar pada 50 s/d 250 Hz untuk laki-laki dan 120 s/d 500 Hz untuk perempuan.Dijelaskan lebih jauh Analisa pitch dapat digunakan untuk melakukan voice recognition terhadap suara seseorang, yaitu melalui analisa statistik terhadap minimum pitch, maximum pitch dan mean pitch. Meskipun begitu, analisa statistik sederhana ini tidak berpengaruh banyak ketika kondisi suara seseorang yang berbicara di rekaman barang bukti jauh berbeda dengan kondisi pengambilan suara pembanding
- Formant adalah frekuensi-frekuensi resonansi dari filter, yaitu vocal tract (articulator) yang meneruskan dan memfilter bunyi periodik dari getarnya pita suara (vocal cord) menjadi bunyi keluaran (output) berupa kata-kata yang memiliki makna. Secara umum, frekuensifrekuensi Formant bersifat tidak terbatas, namun untuk identifikasi suara seseorang, paling tidak ada 3 (tiga) Formant yang dianalisa, yaitu Formant 1(F1), Formant 2 (F2) dan Formant 3 (F3).
- Spektrogram merupakan representasi spectral yang bervariasi terhadap waktu yang menunjukkan tingkat density (intensitas energi) spectral. Dengan kata lain spectrogram adalah bentuk visualisasi dari masing-masing nilai Formant yang dilengkapi dengan level energi yang bervariasi terhadap waktu. Level energy ini dikenal dengan istilah Formant Bandwidth. Nantinya pada kasus-kasus yang bersifat pemalsuan suara dengan teknik pitch shift atau si subyek berusaha untuk menghilangkan karakter suara aslinya, maka Formant bandiwidth dapat digunakan untuk memetakan atau mengidentifikasi suara aslinya. Dikarenakan spectrogram memuat hal-hal yang bersifat detil, maka Spectrogram oleh beberapa ahli juga dikenal dengan istilah sidik jari suara (voice fingerprint). Spectrogram membentuk pola umum yang khas dalam pengucapan kata dan pola khusus masing-masing Formant dalam pengucapan suku kata, sehingga spectrogram juga digunakan untuk melakukan analisa identifkasi suara seseorang.