This article is aimed towards investigating the prerequisites of an application for language analysis. The idea is to use an audio recording of a human reading a written text, and by the means of forced alignment enabling a computer user to easily retrieve the recorded pronunciation of individual words and sentences. The functionality and design of the envisaged application is defined, the research in the field is summarized, a number of existing state-of-the-art solutions and relevant algorithms are explained and assessed in the context of the functional requirements of the application and the findings are discussed.
Denna artikel undersöker vad
som
krävs för att få till stånd ett interaktivt språkanalysprogram. Tanken
är att utvinna uttalet på separata ord och meningar från en
ljudinspelning av en människa som läser upp en skriven text, och direkt
presentera resultatet för en datoranvändare. För att åstadkomma detta
används s.k. forced alignment på olika detaljnivåer. Det tänkta
programmets funktionalitet och design presenteras, följt av en sektion
som sammanfattar forskningen inom området. Ett antal lösningar och
algoritmer hämtade från den allra senaste forskningen beskrivs sedan i
detalj. Allt detta är analyserat och utvärderat utifrån de funktionella
kraven.