![]() |
|   |
![]() |
Endoszkópos és hasi ultrahang leletek diktálásaA BME TMIT Beszédakusztikai Laboratóriumában kifejlesztésre került egy Windows XP alatt működő beszédfelismerő fejlesztői környezet, amely alkalmas különböző középszótáras 1000-10000 szavas szövegek betanítására és felismerésére. A felismerő a statisztikai alapon működő HMM akusztikai fonémamodellekkel, valamint a statisztikai alapú bi-gram nyelvi modellel működik, akusztikai és nyelvi adaptációt használva. Az akusztikai modelleket az MRBA beszédadatbázissal tanítottuk. Az alábbi ábrán a statisztikai alapú gépi beszédfelismerés egyszerűsített blokkvázlata látható. (Az ábra nagyításához,kattintson az alábbi ábrára!) ![]() A nyelvi betanításhoz a budapesti SOTE II. sz. Belgyógyászati Klinikájától (2700 gasztroszkópiai és 2500 hasi ultrahang lelet) és a szegedi Orvostudományi Egyetemről (6365 lelet) gyűjtött korábbi leletanyag korpuszt használtuk. A felismerő optimális működését az akusztikai [4] és nyelvi modellek változtatásával állítottuk be. Lényegében a nyelvi modellhez n-gram modelleket használtunk, de az egyik megoldásban a hagyományos szóalakok az alkotó elemek, a másik megoldásban viszont a morfémák. Külön súlyt fektettünk a valós idejű felismerés elérésére: a dinamikus címzésen és az akusztikai modellek indirekt megközelítésén túl memóriaelérési optimalizáció, valamint nyalábolt keresésnél (Beam Search) változó terű nyaláb alkalmazásával. Az elkészült részfeladatok és az elért
eredmények bemutatása: ![]() |