Studi Format Audio dan Teks Untuk Modul Speech to Text

Elizabeth Irenne Yuwono, Tony Antonio

Abstract


Automatic Speech Recognition (ASR) atau speech to text adalah bidang teknologi identifikasi ucapan manusia dalam bentuk teks transkripsi. Penelitian ini merupakan studi pada format masukan dan luaran speech to text, yaitu audio (ucapan) dan teks. Studi berfokus pada karakteristik dan format sinyal audio, pemrosesan sinyal audio secara digital dan relasinya dengan modul speech to text, pengetahuan linguistik, karakteristik dan format teks, serta isu pengembangan modul speech to text. Sinyal audio untuk ucapan memiliki beberapa karakteristik unik yang membedakannya dengan sinyal audio lain. Karakter-karakter ini merupakan fitur yang digunakan untuk identifikasi ucapan dalam sinyal audio masukan. Dalam modul speech to text sinyal digital mengalami beberapa proses sebelum identifikasi ucapan dilakukan. Proses sinyal digital ini dilakukan untuk memperoleh sinyal ucapan dengan tingkat kebisingan terendah dan hasil akurasi tinggi. Beberapa proses tersebut antara lain: sampling, kuantisasi, Fourier transform, sistem waktu diskrit, dan digital filter. Modul perlu memiliki pengetahuan linguistik untuk dapat mengetahui tata bahasa ucapan. Hasil identifikasi disimpan dalam bentuk teks transkripsi sesuai dengan karakter huruf bahasa tersebut. Melalui studi ini, diperoleh beberapa isu yang dapat dijadikan pertimbangan untuk penelitian selanjutnya terkait rancang-bangun modul speech to text, antara lain: pengaruh sumber dan format sinyal audio pada akurasi modul, kompleksitas tata bahasa dan pengucapan dan hubungannya dengan proses sinyal digital, pengaturan format karakter teks untuk luaran modul dan potensi pengembangan penelitian pada bidang lain.

Full Text:

PDF

Refbacks

  • There are currently no refbacks.