Известно, что оцифрованный речевой сигнал обладает относительно малой сжимаемостью. Компрессия речевого сигнала без потерь методами энтропийного сжатия даёт уменьшение объёма результирующего сообщения по отношению к исходному приблизительно в полтора раза. Применение дельта-компрессии (и близких к ней по сути методов, основанные на идеях А.Хаара и И.Добеши) позволяет улучшить этот показатель ещё в полтора раза. Методы сжатия речевого сигнала с потерями, дающие коэффициенты сжатия, лучшие на порядок, используют психоакустические закономерности: из сигнала удаляются компоненты, оказывающие наименьшее влияние на слуховое восприятие сигнала, например участки спектра, находящиеся «в тени» больших пиков. Необходимо заметить, что все перечисленные идеи основаны на существовании некоторых априорных знаний о речевом сигнале как источнике данных (например, о том, что ординаты соседних точек осциллограммы часто различаются на небольшую величину, или о том, что мгновенный спектр речевого сигнала, как правило, содержит небольшое число доминирующих пиков, определяющих воспринимаемое качество звука). Следуя этой же логике, можно предположить, что использование априорных знаний о том, что речевой сигнал является контейнером, заключающим в себе лингвистическую информацию, также может дать существенный выигрыш в степени его сжатия как с потерями, так и без потерь информации за счёт включения в модель источника данных сведений о закономерностях, описывающих его лингвистическую составляющую. О том, к каким результатам может привести проверка данного предположения, и пойдёт речь в предлагаемом докладе.
$^1$Московский государственный лингвистический университет