Otimizando o Processamento para Streaming.

Existe uma grande diferença entre processamento para Streaming e processamento que vai ao ar. Neste artigo vamos falar sobre como processar o áudio para Streaming de uma forma correta, pois ainda existe muita dúvidas.

Processamento para Streaming;

  • Evite um processamento denso (com muito peso) que tenha limite de tempo rápido e constante.

  • Reduza o tempo de Attack quando desejar maior compressao.

  • Tenha certeza da existência de headroom, se o áudio clipar antes de 0dBFS, ajuste o nível de entrada, para evitar saturamento.

Não use nenhum limitador final que contenha clipper. A distorção harmônica (THD) gerada irá produzir mais danos do que benéficos.

  • Use um processador que tenha um preciso controle de picos, isso irá ajudar muito, se possuir um limitador look-ahead melhor ainda. Pois assim o controle de picos será muito mais eficiente.

  • Lembre-se que ter headroom é muito importante. Configure o processador para operar com um nível de saída que não seja superior a -3 dBfs. Com 3 dB de headroom irá evitar possíveis ocorrências de distorção.

 

Observações:

Existem diferenças fundamentais no processamento de áudio para streaming e no processamento que vai ao ar.

Precisamos considerar:

  • O sistema FM é completamente analógico e linear.

  • O FM usa Pré-ênfase (75us).

  • A largura de banda de áudio em FM de 15 kHz significa que  taxa de amostragem de 32 kHz é adequada para conversões A/D.

  • O ruído de fundo presente na maioria dos receptores de FM limita a resolução geral que equivaleria a cerca de 12 bits no mundo digital.

 

Comparando com Streaming:

  • A largura da banda de áudio não é limitada a 15 kHz e, portanto, as taxas de amostragem podem ser muito maiores.

  • Não possui Pré-ênfase como em FM.

  • Os codecs com perdas (lossy-codecs) são usados para limitar a taxa geral de dados.

 

Para este artigo, alguns dos melhores engenheiros na área de processamento de áudio foram consultados, e concordaram em responder a duas perguntas fundamentais: Quais são as diferenças entre processamento do ar - OTA (over the air) e o processamento para streaming.

Consultores:

- Jeff Keith é engenheiro sênior de desenvolvimento de produtos da Wheatstone.

- Frank Foti é CEO da Telos Alliance.

- Bob Orban é consultor da Orban Labs Inc., de propriedade da DaySequerra.

- Greg Ogonowski é presidente da StreamS/Modulation Index LLC.

 

Jeff Keith:

A diferença principal e mais importante é que a limitação dos picos de áudio é completamente diferente em processadores do ar (OTA) em relação aos processadores de streaming.

Além disso, os processadores FM do ar também utilizam um aumento muito agressivo de altas frequências devido o pré-ênfase,  o que não existe no processamento de streaming.

 

Frank Foti:

Hoje existe uma busca muito competitiva de loudness nas emissoras de rádio, estão cada vez mais aumentando o volume de loudness no dial. Isso não é relevante no mundo do streaming,

Melhor dizer que o processamento para Streaming enfatiza a consistência sonora e inteligibilidade vocal, que é o mais importante.

 

Outro fator importante é o headroom no codec que faz o streaming.

Existe um limite máximo que é de 0dBFS. Os níveis de áudio para Streaming devem poder ser ajustados. Porém dependendo da codificação/decodificação, pode ocorrer overshoots (picos).

Outro detalhe importante é que os codecs diferem uns dos outros, nem todos são iguais,

uns são eficientes e outros nem tanto deixando passar overshoots (picos) que diminuem o headroom. E importante existir headroom para que o audio do streaming não produza distorção.

 

Bob Orban:

O FM analógico requer state-of-the-art limite de pré-ênfase para conseguir um volume de loudness competitivo, e minimizar a perda de alta frequência induzida pelo pré-ênfase.

Isto implica no uso de um sofisticado clipping com cancelador de distorção.

O streaming  por outro lado não possui pré-ênfase, mas é altamente afetado pela redução de bits produzida pela codificação perceptual.

 

Por outro lado o streaming não possui pré-ênfase, mas normalmente haverá uma redução de bits realizada na codificação perceptual. Isso cria um conjunto de requisitos totalmente diferente: A limitação de pico realizada não deve usar clipping porque não haverá espaço disponível para codificar os bits produzidos pela distorção induzida pelo clipping. Finalizando, não existe limite de pré-ênfase. A melhor maneira para limitar os picos no streaming é usar a limitação look-ahead (limitação antecipada) que pode realizar um limite de picos sem produzir distorção.

 

Greg Ogonowski:

As considerações sobre processamento de audio são bem diferentes dependendo da codificação, principalmente se for no formato PCM. A codificação em PCM Linear não possui codificador e decodificador perceptual. Diferente da codificação em AAC ou MP3.

 

A codificação PCM linear e Codificação de audio AAC ou MP3 necessitam de usar limitadores para controle de over-sampled, que é o processo de conversão do áudio para uma maior taxa de  Sample Rate (taxa de amostragem) e assim prevenir picos acima do nível do teto (ceiling) de 0dBFS  depois da conversão A/D.

 

Quando a energia  do espectro de sinal é removida ou sofre interferência devido ao controle de picos, existe a possibilidade de overshoots (picos).

Na codificação linear (PCM) somente é necessário atenção e controle nas respostas de altas e baixas frequências.

 

Em codificações de áudio, como AAC ou MP3, há outros aspectos que devem ser levado em consideração. O trafego de sinal do codificador/decodificador de áudio é perceptivo ou seja remove a energia de dentro da banda passante de áudio, e portanto, também interfere com os níveis de picos. Quanto maior for a redução de bits, mais overshoots.

Nota: Os overshoots acontecem na saída do codificador, onde não podem ser controlados pela limitação de picos adicional. Portanto, na saída do decodificador haverá overshoots (picos).

 

Codecs de áudio usando SBR (Spectral Band Replication), como HE-AACv1/v2 e o codec HD Radio precisam maior headroom, pois o SBR causa overshoot (picos) adicionais.

Portanto, para evitar que esses codec sejam sobrecarregados e haja clipping, a maneira mais fácil de evitar isso é reduzir os níveis de áudio nos codificadores para pelo menos -3 dB e permitir um espaço livre para os overshoots. Se não houver headroom suficiente para os overshoots, artefatos serão criados fazendo com que  a qualidade do audio não seja boa.

 

Considerações finais de Frank Foti:

É possível ter um streaming alta qualidade usando baixa taxa de bits rate. Se usar um processador de audio dedicado que possua recursos para lidar com os desafios da codificação   do audio. Para aqueles que desejam ajustar por conta própria, com equipamentos de processamento existentes, as seguintes regras devem serem seguidas:

 

Evite processamento denso que contenha Attack rápido, tente reduzir o tempo de attack quando 5dB ou maior profundidade de compressao for desejada. Isso reduzirá o IMD produzido pelo processador nas frequências superiores.

 

Certifique-se de que o streaming de audio possua suficiente headroom e não nunca  ultrapasse teto (ceiling) de 0dBFS. Por isso é muito importante configurar a saída do streaming com um nível não superior a -3dBfs. Permitir 3dB de headroom removerá qualquer risco de distorção que pode ocorrer devido a conversores digitais-analógicos de qualidade abaixo do adequado.

Não use nenhum limitador que contenha clipper. O THD gerado pelo clipping causará mais problemas do que benéficos . Um controle de picos de precisão é necessário no streaming de audio. Por isso recomendamos usar um processador dedicado para streaming que tenha um limitador tipo look-ahead para realizar esta tarefa.

 

Considerações finais de Jeff Keith:

Uma maneira de pensar na diferença entre som do ar e som de streaming  é comparar os objetivos de uso em ambos os casos.

O processamento do ar geralmente é bastante agressivo, principalmente porque as emissoras de rádios geralmente querem ter o som mais alto do que a concorrência.

O objetivo de volume (loudness) é ainda mais agravante devido a facilidade de alternar instantaneamente entre as radios para comparar o volume.

 

Enquanto o pessoal de rádio considerar o volume (loudness) um critério importante, a maioria dos ouvintes não se importa muito com isso.

 

Em aplicativos de streaming, se ter um máximo de volume loudness) não é tão importante quanto se ter um streaming que possa ser ouvido por longos períodos de tempo.

Além disso, comparar o volume é muito mais difícil no caso de streaming por causa dos processos de buffer dentro da tecnologia de streaming e redes de interconexão que tornam impossível fazer comparações instantâneas de volume.

 

Considerações finais de Greg Ogonowski :

Bons resultados em processamento de audio dependem completamente da qualidade do áudio de origem. Existe muitas coisas que podem serem feitas para reparar a qualidade ruim no processamento especialmente se as fontes forem codificadas.

 

Os HDs hoje são muito baratos e os computadores rápidos o suficiente para usar o formato PCM linear.

Wav - Waveform Audio File Format.

Aiff - Audio Interchange File Format.

MP3 nunca deve ser usado.

 

Se for usado codificação por qualquer motivo, o AAC a 256 Kbps é a melhor opção

Lembrando que esses audios serão codificadas pelo streaming da rádio portanto, os ciclos de codificação-decodificação devem ser reduzidos ao mínimo para fornecer a melhor qualidade de áudio ao ouvinte, que é o que conta.

Artigo escrito por: Jorge Faria  

Data:15/03/2022

Consultor de Broadcast da Audiotx e Stereotool FM

www.stereotool.com.br

www.audiotx.com.br