Si el audio contiene segmentos sin voz humana, se procesarán como boca cerrada durante la sincronización