Sary Suryadewi: Browsing Audio Data

Browsing Audio Data..

sejenak yang terlintas dipikiran saya adalah browsing suatu data audio. Data audio berarti data yang bersifat audio.. hehe.. seperti musik, lagu, suara, dan sebagainya. Nah, mungkin yang dimaksud disini ada hubungannya dengan segala sesuatu yang berhubungan dengan data audio tadi atau audio data.. Sebelumnya, saya penasaran.. kalau ini termasuk browsing audio data bukan yah?
Di hape W508 saya, ada fasilitas dimana jika kita sedang mendengarkan radio, lantas ada penyanyi yang kita tidak tahu judul dan siapa penyanyi yang sedang bernyanyi di radio tersebut, maka hanya dengan memilih satu menu "TrackID" sudah langsung terhubung dengan koneksi internet dan kemudian akan melacak siapa penyanyi dan judul lagu serta album dari lagu tersebut. Dengan begini kita dapat mengetahui asal-usul lagu tersebut yang awalnya "tidak tahu"..

Lalu pertanyaan saya,,

ini salah satu penerapan dari browsing audio data bukan yaa,?

Di internet, tidak cukup terdapat pengertian secara definitif mengenai browsing audio data. Namun justru saya menemukan suatu ilustrasi dari browsing audio data itu sendiri, yaitu bagaimana dapat terus memainkan audio yang ada tanpa timbul data yang mengganggu yaitu dengan menerapkan mekanisme streaming dan buffering. Arsitektur sistem yang dapat digunakan diantaranya client-server beserta modelnya. Sedangkan database digunakan untuk menyimpan informasi metadata audio. Server audio yang bertanggung jawab untuk mengambil informasi dari database digunakan untuk memenuhi permintaan klien. Klien menyediakan antarmuka komputer manusia untuk pengguna melalui antarmuka pengguna grafis untuk browsing, mencari dan memainkan audio yang menarik melalui jaringan. Berdasarkan masukan klien permintaan pengguna ke server untuk mendapatkan informasi audio (seperti daftar film-film bahasa tertentu, daftar lagu-lagu film tertentu dan daftar lagu berdasarkan pencocokan pengguna memasukkan teks lirik). Audio pengambilan informasi dari basis data akan dilakukan oleh server berbasis teks menggunakan metode pencarian. Sebuah jaringan metode browsing disediakan untuk browsing video / audio data yang ditembak oleh sebuah IP kamera. Sebuah komputer lokal digabungkan ke LAN (local area network) untuk mendeteksi IP kamera. Metode browsing jaringan mencakup langkah-langkah dari: mengeksekusi program aplikasi komputer lokal untuk mendapatkan kode identifikasi IP yang tersimpan dalam kamera; transmisi untuk mendaftarkan kode identifikasi ke DDNS (Dynamic Domain Name Server) oleh program aplikasi; mendapatkan kamera IP pribadi alamat dan alamat server pribadi sehingga pasangan IP kamera dan kontrol kamera IP melalui kamera IP pribadi alamat dan alamat server pribadi dan kopel ke layanan server melalui alamat server pribadi sehingga untuk mendapatkan video / audio data yang ditembak oleh kamera IP. Server layanan menangkap video / audio data yang ditembak oleh kamera IP melalui Internet. *sumber*

>> Speech Recognition

Waah,, saat ini hampir di setiap aspek kehidupan dapat ditemui dengan mudah penerapan dari Speech Recognition ini, dimana kita dapat memasukkan suara kita untuk memilih menu-menu pada suatu program.. hehe begitu sih sederhananya..

Secara gampangnya nih, Speech Recognition tuh merupakan suatu aplikasi yang menggunakan suara sebagai inputnya kemudian mengolah suara tersebut untuk menjalankan suatu perintah tertentu. Udah banyak lho aplikasi-aplikasi yang ada di sekitar kita yang menerapkan SR ini. Sebagai contoh, pada berbagai merk handphone terdapat menu "kontrol suara" atau voice control yang dapat mengatur suara kita yang akan digunakan untuk misalnya memanggil dan menjawab panggilan telepon atau untuk membunyikan identitas dari pemanggil. Fitur-fitur ini salah satunya dapat ditemui di hape SE saia.. ;) *maksudnya kalo ada yang mo pinjem cuma sekadar buat lihat seperti apa aplikasinya.. ^^v
dan pernah saya coba juga di hape N81-nya adek..dan hasilnya lumayan untuk menambah pengetahuan saya mengenai aplikasi SR ini..
Waktu itu yang dicoba sih fitur yang "membunyikan identitas pemanggil".. jadi setiap ada telepon masuk, si mister nokia-nya segera membacakan nama dari si pemanggil ditengah-tengah deringan telepon dengan suara khas mister Nokia.. hehe..

Kalau mau mencoba, silahkan aja utak-atik menu "Kontrol Suara" yang ada di hape teman-teman, trus rekam suaranya (kalau ingin mengaktifkan fitur panggil/jawab suara).. tapi yang perlu diingat, suara yang dimasukkan diusahakan suara yang sama yaa.. jangan dengan suara yang tidak biasa digunakan.. hehe.. kalaupun teman-teman ragu, kira-kira suaranya dah sama belum yaa,, teman-teman tidak perlu khawatir,, karena sebelum kontrol suara tersebut diaktifkan, akan ada pengulangan input suara yang kita masukkan kok.. jadi kita dapat memastikan itu benar-benar suara kita yang biasanya..hehehe.. ^^

Selamat mencoba... ^^o

Kalau contoh untuk aplikasi komputernya, kita sering melihat ada aplikasi Sandi User hehe begitu saya menyebutnya.. dimana saat seorang user akan mengakses sesuatu, seorang user harus memasukkan ID dan Password-nya, nah dalam hal ini yang menjadi inputnya adalah suara sang user.. jika suara yang dimasukkan sama dengan suara yang dahulu direkam, maka user tersebut dapat mengaksesnya..

Intinya Speech Recognition yaa kurang lebih seperti itu.. hemm,, tapi apa sih definisi dari Speech Recognition itu sendiri?
Ini beberapa pengertian mengenai Speech Recognition..

High quality Speech Recognition (SR) system is at least trained with corpus that consists of hundred or more utterances sample with hundred or more speakers. On making corpus for SR system, segmentation is needed to mark speech waveform for each linguistic unit based on time unit from all training data files, manually. Therefore developing the high quality corpus will need a lot of resources and time consuming.

One of alternative ways to accelerate the development of high quality corpus is using iterative approach. On this method, small volume of corpus is developed manually. Then, that small corpus is used to recognize and tagg automatically some of sentences or words that will be used as content in the next corpus. The result will be edited manually and then bundled together with the first small corpus. Then this bundle will be use to recognize and tagg the content in the next corpus. So then, we will gain corpus with larger volume. In this research, corpus in Indonesian language consist of 10860 files will be developed with iterative approach.

From analyses and measurements, the system can reach accuracy about 95.28. %. From this result, we can conclude that the developed corpus with iterative approach. can produce good accuracy and more efficient compared to manual labeling.

Dari buku Pengenalan Komputer-nya Pak Jogiyanto, dapat disimpulkan bahwa Speech Recognition atau Voice Recognition dapat membuat komputer mengerti bahasa manusia dengan menggunakan microphone untuk menangkap input suara.

>> Microsoft Office Speech Recognition

Jika teman-teman pengguna sistem operasi Windows, Microsoft Office telah memiliki salah satu penerapan dari Speech Recognition ini lho, yang diberi nama Microsoft Office Speech Recognition yang merupakan salah satu fitur yang cukup membanggakan dan memudahkan pengguna saat bekerja di lingkungan Microsoft Office. Fitur ini telah ada sejak Microsoft Office versi XP. Dengan fitur ini, user dimanjakan dengan fasilitas Voice Command dan Voice Dictation. Sesuai dengan namanya, Voice Command adalah fitur yang memberikan instruksi kepada Office. Misalnya, untuk membuat file baru, biasanya kita menggunakan keyboard dengan Ctrl+N stroke, atau menggunakan mouse (klik di menu File, dan pilih New). Voice Command menambahkan opsi memberikan instruksi kepada Office dengan hanya mengatakan “Menu File New” menggunakan microphone. Voice Dictate adalah fitur men-dictate kata-kata menggunakan suara (microphone) dan Microsoft Office akan menuliskannya secara otomatis pada dokumen yang bersangkutan. Untuk bisa menggunakan fitur ini, ada beberapa langkah yang harus dipenuhi. Secara garis besar, user akan diminta untuk membuat profil suara. Untuk membuat profil suara ini, pastikan microphone yang digunakan adalah microphone yang cukup baik kualitasnya dan lingkungan di sekitar user tidak terlalu berisik (akan lebih baik lagi jika tidak ada suara lain selain suara user yang bersangkutan). *sumber*

Nah, sebagai penutup saya kembali bertanya-tanya,, hehe.. begini.. dulu IM3 khan pernah menyediakan fasilitas rekam suara untuk menerima panggilan tidak terjawab.. hehe bingung yaa?

Jadi begini lho,, apabila ada telepon masuk yang tidak terjawab, khan biasanya ada suara dari mbak-mbak IM3 yang bilang, " ... silahkan tekan bintang untuk meninggalkan pesan.." hehe,, nah dulu saya pernah menggantikan tugas mbak-mbak IM3 tersebut,, jadi suara saya yang akan keluar setiap kali telepon tidak terjawab.. hehe sudah bisa menangkap maksud saya khan??

nah kalau itu termasuk salah satu penerapan dari Speech Recognition bukan yah?
Sepertinya sih iya.. mengapa? karena pada dasarnya sama-sama menggunakan suara sebagai inputnya, kemudian mengolah suara tersebut menjadi bentuk digital kemudian menyajikan suara itu kembali untuk mengeksekusi suatu perintah, dalam hal ini "perintah meninggalkan pesan"..
Kalau salah dan ada yang ingin menambahkan, tolong dikoreksi yaa teman-teman.. ^,^

>> Speech Synthesis

Trill is one of the most difficult sounds for speech synthesis due to the complexity of the speech signal. The problem needs to be addressed since it is a popular sound in the world's languages. Several languages in the multi-language text-to-speech system of Bell Laboratories have this sound in their inventory.
*sumber*

Sumber-sumber:

>> http://www.freshpatents.com/Network-video-audio-browsing-system-and-browsing-method-thereof-dt20090702ptan20090172088.php

>> http://mugi.or.id/blogs/bfindarto/archive/2009/02/02/microsoft-office-speech-recognition.aspx

>> http://www.blogger.com/%20http://digilib.itb.ac.id/