André Algotsson

Applied forced alignment for language analysis

Abstract

This article is aimed towards investigating the prerequisites of an application for language analysis. The idea is to use an audio recording of a human reading a written text, and by the means of forced alignment enabling a computer user to easily retrieve the recorded pronunciation of individual words and sentences. The functionality and design of the envisaged application is defined, the research in the field is summarized, a number of existing state-of-the-art solutions and relevant algorithms are explained and assessed in the context of the functional requirements of the application and the findings are discussed.

Tillämpad forced alignment för språkanalys

Sammanfattning

Denna artikel undersöker vad som krävs för att få till stånd ett interaktivt språkanalysprogram. Tanken är att utvinna uttalet på separata ord och meningar från en ljudinspelning av en människa som läser upp en skriven text, och direkt presentera resultatet för en datoranvändare. För att åstadkomma detta används s.k. forced alignment på olika detaljnivåer. Det tänkta programmets funktionalitet och design presenteras, följt av en sektion som sammanfattar forskningen inom området. Ett antal lösningar och algoritmer hämtade från den allra senaste forskningen beskrivs sedan i detalj. Allt detta är analyserat och utvärderat utifrån de funktionella kraven.