Entendendo o som surround e o som binaural

Entendendo o som surround e o som binaural
logo-fsm

Understanding Surround and Binaural Sound

Autor original: Terry Hancock

Publicado originalmente no: freesoftwaremagazine.com

Tradução: Roberto Bechtlufft

Geralmente as trilhas sonoras de filmes são disponibilizadas em estéreo ou surround 5.1, embora existam outras possibilidades. Muito do material sonoro que eu venho usando é binaural, soando assustadoramente realista com fones de ouvido, mas impressionando bem menos quando reproduzido em alto-falantes. Mas que papo é esse de binaural e surround, e como as ferramentas de software livre podem ajudar você a tirar o máximo proveito desses tipos de som? Esta será uma experiência constante de aprendizado, mas quero começar com uma breve descrição das tecnologias mais comuns, e de como é o suporte a elas nos formatos de arquivos que temos à nossa disposição: Vorbis, FLAC e WAV.

Esta coluna pode parecer meio deslocada, mas ela funciona como ponto de partida (e como introdução técnica) para vários assuntos dos quais pretendo tratar no futuro. Para realizar o processamento do som surround com ferramentas de software livre, é importante começarmos entendendo o que é o som surround, e por que ele nos interessa. No meio do caminho passaremos pelo intrigante som binaural, e veremos sua diferença em relação ao som estéreo.

O caminho rumo ao som surround

As primeiras gravações sonoras foram em mono, ou seja, uma única forma de onda era gravada, representando frequência e volume, mas sem direção. Isso bastava para diversas aplicações, mas o resultado era meio fraco em gravações de músicas.

A audição humana é tridimensional. Conseguimos distinguir a direção e, até certo ponto, a distância de uma fonte sonora. Há um monte de informações nos sons que chegam aos nossos ouvidos, e o cérebro realiza um processamento muito sofisticado dessas informações.

Acho que a maioria das pessoas percebe que o som estéreo funciona fazendo com que o som chegue a cada ouvido com volumes diferentes: se soa mais alto no ouvido esquerdo (ou se sai da caixa da esquerda), o som parece estar vindo dessa direção. E vice-versa. O nome disso em inglês é “panning” (que vem de “panorama”), ou apenas “pan”. No caso, fizemos pan para a caixa da esquerda.

O som estéreo simples gera uma ilusão de tridimensionalidade limitada, mudando o volume do sinal de cada alto-falante, imitando o aspecto mais simples da audição binaural.

O estéreo é muito popular, e funciona muito bem. É muito fácil produzir som estéreo em uma mesa ou aplicativo de mixagem, como o Audacity. Basta alterar as amplitudes relativas das formas de onda da esquerda e da direita pertencentes aos elementos que você vai gravar. Desse jeito, dá para pegar várias gravações em mono (de instrumentos individuais, por exemplo) e distribuí-las ao longo do espectro esquerda-direita, mas para ouvidos treinados, o resultado pode soar meio insípido.

Outra abordagem é gravar em estéreo mesmo, com dois microfones, simulando seus ouvidos. Há até quem ponha os microfones na cabeça de um boneco para simular os efeitos que a cabeça tem sobre o som (sim, isso altera o som). Esse tipo de gravação é chamada de binaural (de dois ouvidos), e o ideal é ouvir esse tipo de gravação com fones de ouvido.

Acontece que o som binaural real contém vários efeitos secundários, como mudanças de fase e filtragem, influenciados pelo caminho que cada som toma para chegar a cada ouvido. Nosso cérebro realiza um processamento muito sofisticado em cima dessas informações para produzir uma imagem de áudio 3D do ambiente. As gravações binaurais podem soar bastante impressionantes.

Estes são alguns exemplos de gravações binaurais da Wikimedia Commons e que valem uma conferida:

Se você ouvir esses sons com fones de ouvido e fechar os olhos, aposto que vai ficar impressionado com a quantidade de detalhes que vai conseguir perceber. Dá para localizar os sons bem melhor. O pan usado no estéreo não consegue fazer isso.

Na verdade, há muitos processos sutis em andamento aqui. Alguns estão relacionados à forma como o som contorna ou atravessa sua cabeça para alcançar o ouvido. Isso pode gerar efeitos de filtragem de frequência ou ecos. Também captamos ecos e reverberações causados pelas paredes do ambiente no qual uma gravação foi realizada.

Mas o efeito mais expressivo (além do volume, que é modelado pelo pan) é o da mudança de fase. O som é bem lento, ao menos quando comparado à luz. Há um atraso considerável entre a chegada do som ao ouvido mais próximo e ao mais distante. Esse atraso faz com que as formas de onda sofram uma alteração temporal em relação uma à outra. O cérebro é muito sensível a essa informação (o que é uma maravilha da neurobiologia e da evolução, mas a gente nunca dá valor a essas coisas), e nós interpretamos essas mudanças como informações espaciais.

A ilusão binaural funciona muito bem com fones de ouvido, mas não com alto-falantes, que podem ser reconhecidos como duas fontes de localizações diferentes. O novo conjunto de alterações de fase associadas ao aposento em questão tende a embaralhar as informações do sinal original.

Infelizmente, o som binaural só funciona mesmo com fones de ouvido. Com caixas de som no local, a maior parte da sutileza é perdida, e é difícil encontrar alguma diferença em relação ao pan do som estéreo. Isso acontece porque o som não chega mais aos seus ouvidos sem alterações. Em vez disso, ele é rebatido pelas paredes, pelos móveis e assim por diante, embaralhando as informações sensíveis de fase. Em vez de ouvirmos a complexa visualização sonora da gravação, somos afetados pela visualização do som do nosso quarto.

E agora?

Que papo é esse de “5.1”?

Um jeito de resolver isso é arranjar mais alto-falantes. Diversas configurações foram testadas ao longo dos anos, de três alto-falantes a dez, mas a mais popular é disparada a com seis alto falantes, denominada “surround 5.1”.

Nessa disposição, ainda temos as caixas da esquerda e da direita, posicionadas à sua frente (geralmente uma em cada lado da tela, no caso de vídeos), mas também há outras: uma caixa central diretamente à sua frente (bem atrás da tela), e as caixas de surround esquerdo e direito atrás de você. Isso explica o “5” do nome “surround 5.1”.

O “1” é um canal de efeito de baixa frequência (ou LFE) que segue para um sub-woofer, geralmente montado em frente a você, mas o ideal seria que estivesse diretamente abaixo da sua cadeira. Esse é o alto-falante que faz o quarto tremer quando algum som alto é produzido, sendo muito popular em filmes de ação.

Para restaurar parte da ilusão 3D, utiliza-se um sistema com vários alto-falantes envolvendo o usuário com o som. O equilíbrio entre as caixas frontais e posteriores permite a preservação de mais informações. Isso fez do som 5.1 uma opção muito popular para home theaters, e também para os cinemas.

Variantes

Obviamente existem versões mais simples: o som quadrifônico ou surround 4.0, por exemplo, elimina os canais central e LFE, e foi popular por uns tempos nos idos dos anos 70. Também há sistemas surround mais complexos, que basicamente adicionam caixas, como é o caso do 7.1 (esquerda-frontal, central, direita-frontal, esquerda, direita, esquerda-posterior, direita-posterior e LFE) e do 9.1.

Do binaural para o surround

Como o cérebro consegue criar uma experiência de áudio 3D com o som surround e com o som binaural (com fones de ouvido), provavelmente é necessário um trabalho computacional para se migrar de um tipo para o outro, certo? De fato, sim. E é complicado.

Pesquisar esse tipo de coisa foi uma surpresa para mim, porque eu nem imaginava que o assunto fosse tão amplo. Algumas palavras-chave interessantes (e links da Wikipedia) podem revelar boas fontes de pesquisa em inglês: 3D audio Effect, Head-Related Transfer Functions, Binaural Recording, Psychoacoustics, sound Localization e, obviamente, surround sound.

Houve algum trabalho nesse sentido sendo realizado pelo projeto de videogame “Yo Frankie!” da Blender Foundation, tocado pela Barcelona Media, resultando em um documento técnico (PDF 1,4 MB, em inglês) e em uma apresentação de slides (PDF 6 MB, também em inglês) sobre o uso da biblioteca de processamento de áudio CLAM somada ao Ardour e ao Blender para criar simulações de efeitos sonoros tridimensionais. Um dia eu vou tentar usar essa técnica e documentar por aqui, mas não hoje.

Suporte nos formatos de arquivo Ogg Vorbis, WAV e FLAC

Basicamente, há quatro formatos de arquivos com os quais eu trabalho regularmente para processar som: MP3, WAV, Ogg Vorbis e FLAC. O MP3 tem vários problemas, incluindo restrições de patentes que fazem dele uma péssima escolha para quem quer desenvolver algum trabalho, mas uma boa quantidade de música (até gratuita) é distribuída nesse formato.

Dada a popularidade do MP3, é bom eu começar logo tratando dele: o MP3 não tem suporte a som surround 5.1 e nem a nenhum tipo de som multicanal, exceto pelo estéreo. Podem haver variações contradizendo isso, mas elas não parecem ser parte do padrão MP3. É claro que você pode codificar gravações binaurais em qualquer formato estéreo, e algumas gravações binaurais que encontro estão em MP3.

O melhor formato livre para áudio compactado com perdas é o Ogg Vorbis. O Vorbis tem suporte a som multicanal (aliás, a muitos canais: uns dizem “ilimitados”, outros 256, mas o fato é que a capacidade é mais do que suficiente).

Observe que há uma diferença entre um arquivo Ogg contendo mais de um fluxo Vorbis e um fluxo Vorbis com múltiplos canais de áudio entrelaçados! É melhor pensar em um arquivo com fluxos de áudio Vorbis separados como um conjunto de faixas de áudio alternativas (e é assim mesmo que o VLC lida com esse fluxo). Seja como for, um Ogg com um único fluxo Vorbis pode armazenar vários canais, visando sua reprodução simultânea em caixas diferentes. O caso mais comum é o estéreo, onde o primeiro canal vai para a caixa da esquerda e o segundo vai para a caixa da direita. Isso fica mais complexo e menos padronizado no surround 5.1, mas o princípio é o mesmo.

No entanto, o som surround 5.1 tende a ser uma necessidade em ambientes de alta fidelidade, o que não combina com a preocupação com o tamanho do arquivo encontrada nos formatos de compactação com perdas.

Portanto, na maioria das vezes em que tento mixar faixas de som surround de alta fidelidade, trabalho com um dos dois formatos sem perdas disponíveis: formato WAV sem compactação e formato FLAC compactado e sem perdas. O FLAC (sigla em inglês para “codec livre de áudio sem perdas”) podem não soar muito familiar ao grande público, mas tornou-se um formato popular para o compartilhamento de arquivos de áudio sem perdas na internet. Os arquivos FLAC costumam ser bem maiores do que os arquivos Ogg Vorbis e MP3, porém bem menores do que os arquivos WAV, que são enormes.

Atribuições de canais

Como eu mencionei brevemente, há uma convenção amplamente difundida quanto à ordem correta para faixas de áudio: canal esquerdo primeiro, seguido pelo direito. Mas as coisas não são tão simples com o som surround. Ordens padronizadas estão demorando a aparecer, e não faltam inconsistências. O FLAC segue a mesma convenção dos arquivos WAV, mas o Vorbis usa outra ordem. Tive que pesquisar um bocado para descobrir isso, então vou fechar a coluna de hoje com uma tabela de referência para o padrão de atribuição de canais de som surround 5.1 nesses formatos:

Canal

WAV/FLAC

Vorbis

1

Esquerdo

Esquerdo

2

Direito

Central

3

Central

Direito

4

LFE

Surround esquerdo

5

Surround esquerdo

Surround direito

6

Surround direito

LFE

Criação de filmes com software livre

Este artigo é parte de uma série sobre os desafios que eu encontrei na produção de dois filmes de licença livre, Marya Morevna, no Projeto Morevna, e Lunatics, do projeto Anansi Spaceworks.

Créditos a Terry Hancockfreesoftwaremagazine.com

Tradução por Roberto Bechtlufft <info at bechtranslations.com.br>

Sobre o Autor

Redes Sociais:

Deixe seu comentário

X