Les mythes du signal numérique
Mythe 1 :
Plus la vitesse de l’échantillonnage sera élevée, plus l’audio sera fidèle
On compare souvent la vitesse d’échantillonnage audio (44,1, 48, 96 kHz...) au débit d’images en cinéma ou en vidéo. Tout le monde s’accorde pour dire qu’une séquence vidéo à 30 images à la seconde sera mieux définie qu’une autre à 12 images secondes. Pour certains films, on a même augmenté la cadence d’images seconde dans le but d’améliorer la qualité et la fluidité du rendu à l’écran.
En ce qui a trait à audio, le principe est cependant totalement différent. La vitesse d’échantillonnage est liée à l’étendue de la bande de fréquences représentées. Pour être fidèle, la fréquence d’échantillonnage doit avoir deux fois la valeur de la fréquence la plus élevée à représenter. Ainsi, une vitesse d’échantillonnage de 44,1 kHz, celle qui est utilisée pour les CD, permet de reproduire fidèlement toutes les fréquences jusqu’à 22,5 kHz.
L’oreille humaine perçoit les sons de 20 Hz à 20 kHz, c’est un fait établi depuis des décennies (on cherche toujours un loupé de la nature qui entend au-delà de cette limite). Et ça, c’est au meilleur de sa forme. Pour un adulte normal, la moyenne tourne plutôt autour des 16-17 kHz. Alors malgré toute la bonne volonté, le talent ou le don des meilleurs ingénieurs de son de la planète, ils ne perçoivent pas plus que vous ni moi les fréquences au-delà de 20 kHz.
Étant donné que la totalité du spectre audible est déjà pleinement représentée dans un signal échantillonnée à 44,1 kHz, les fréquences d’échantillonnages supérieures n’amènent rien d’audible ou d’utile à l’audio. Elles n’augmentent ni sa fidélité, ni sa qualité. À vrai dire, plusieurs tests confirment même que l’échantillonnage à 192 kHz est encore moins fidèle qu’un échantillonnage plus lent.
Mythe 2 :
Le signal numérique pose problème, car tout ce qui tombe entre les échantillons est perdu
Une autre notion très répandue veut que le signal numérique n’offre pas une représentation fidèle de tout ce qui se trouve entre les échantillons, ce qui occasionnerait des erreurs sur les plans de la position même des fréquences. Pour minimiser ces problèmes, on devrait augmenter la fréquence d’échantillonnages.
C’est encore une fois un mythe. Même si le son est échantillonné par intervalle, la position et le contenu du signal d’origine demeurent intacts (je vous fais grâce des explications mathématiques. Si ça vous branche, vous trouverez tout ça de manière très détaillée dans l’article : « Sampling Theory for Digital Audio » de Dan Levry). Disons simplement que malgré les représentations courantes du signal numérique en forme d’escalier, comme on le voit dans tous les logiciels MAO, ce signal est, au final, une onde aussi précise et régulière qu’un signal analogique.
Mythe 3 :
Plus le nombre de bits sera élevé, plus l’audio sera fidèle
Pour bien comprendre l’effet du nombre de bits sur le son, il faut saisir comment se réalise la conversion de l’analogique au numérique (j’essayerai d’être le plus bref possible). Le signal est d’abord échantillonné et chaque échantillon a une valeur. Les valeurs sont ensuite reliées entre elles par une série de processus qui génèrent un bruit de fond s’apparentant au souffle que produisent les supports analogiques (le sifflement d’un magnéto à ruban par exemple). L’écart entre le volume de ce bruit de fond et celui du signal le plus élevé sans écrêtage est ce qu’on appelle l’étendue dynamique du signal (« dynamic range » en anglais).
La profondeur d’échantillonnage (8, 16, 24 ou 32 bits) ne régit finalement qu’une chose : l’étendue de la marge dynamique ou, si vous préférez, l’écart entre le bruit de fond généré par la conversion et le signal le plus élevé avant l’écrêtage. La profondeur d’échantillonnage n’a donc aucun effet direct sur la qualité de la reproduction d’un signal sonore dans la mesure où le volume de celui-ci est situé à l’intérieur de la marge dynamique.
À la rigueur, une onde échantillonnée en 8 bits sera aussi fidèle qu’une onde en 24 bits (dans la mesure où cette onde entre dans la marge dynamique disponible en 8 bits). Par exemple, en 8 bits, l’étendue dynamique totale est de 48 dB.Ce qui veut dire que tout ce qui trouve entre -48 dB et 0 dB sur votre vumètre sera fidèlement reproduit. En 16 bits, l’étendue dynamique est de 96 dB.
À une profondeur d’échantillonnage de 16 bits, le bruit de fond est tellement bas qu’il est inaudible à moins de foutre le volume au plancher (et encore!). D’ailleurs, si on compare la marge dynamique du numérique à celle des supports analogiques, on risque d’avoir un choc. Quelle est la profondeur (ou la résolution, si vous préférez) d’une bonne vieille cassette audio? 9 bits, si elle est en parfait état, mais 6 bits est beaucoup plus réaliste. C’est trois fois moins qu’un CD standard. Il s’en est pourtant vendu des centaines de millions! Notre vénéré vinyle : 11 bits sous son meilleur jour. Le meilleur magnéto à ruban de studio : 13 bits, peut-être 14 si vous êtes prêts à ajouter de la saturation (c’est ça le but d’utiliser un magnéto, non? Ah! Vous pensiez que c’était pour sa haute fidélité? Désolé!).
Mythe 4 :
La meilleure façon d’ajuster le volume est de l’amener le plus du 0 sans le dépasser
Encore une fois, c’est faux. Cette méthode, tout à fait appropriée pour du matériel analogique, est extrêmement risquée en mode numérique. D’abord parce que, comparativement à l’analogique, la marge dynamique du signal numérique est ridiculement élevée. Il est donc inutile de courir le risque d’écrêter le signal. En 24 bits, par exemple, on dispose d’une marge dynamique suffisante pour représenter aussi fidèlement une mouche en vol dans le fond de la pièce qu’un jet qui décolle dans votre maison!
Ensuite parce que le mode numérique n’offre pas la bouée de sauvetage de l’analogique : la saturation. En effet, si votre signal excède le 0 en analogique, vous obtenez de la saturation. La chaleur et la rondeur qu’elle apporte sont d’ailleurs des points forts de l’analogique. En numérique, si vous dépasser le 0, vous obtiendrez un craquement tout à fait désagréable que l’on nomme « le clipping ». Vous ne voulez donc pas dépasser ce 0... jamais!
De plus, on sait que plusieurs transiants (la composante initiale de l’attaque d’un son) sont trop rapides pour être correctement affichés par un vumètre. Par exemple, le volume réel d’un coup de caisse claire peut facilement excéder de 10 dB la lecture qu’affiche votre vumètre.
Ainsi, il est beaucoup plus approprié de viser au moins 12 dB à 15 dB sous le zéro. En 24 bits, vous pouvez même descendre beaucoup plus bas sans engendrer de problèmes. Un signal enregistré à un volume de à -25 dB sur votre vumètre sera encore à plus de 70 dB au-dessus du seuil du bruit de fond! Il est donc inutile de « remplir les bits », autre expression que l’on entend à l’occasion dans le monde de l’audio.
Si vous avez encore des doutes, visionnez l’excellente vidéo de Monty Montgomery. Il y fait la démonstration de plusieurs notions exposées ici à l’aide d’appareils de mesure analogiques et d’une interface E-Magic qui date de 20 ans!
Conclusion
La combinaison 44,1 kHz en 16 bits est le format optimal pour reproduire l’audio en format numérique. Un nombre d’échantillonnages supérieur ne fait qu’ajouter au signal de très hautes fréquences, à la fois inaudibles et inutiles au signal. Tout ce que les fréquences d’échantillonnage supérieures apportent, c’est donc un surplus de travail au processeur de votre ordinateur et des fichiers plus lourds à gérer. Cela dit, un échantillonnage de 48 kHz couvrira assurément tous vos besoins, sans pour autant surcharger vos disques durs.
Dans le même ordre d'idée, à l’enregistrement et au mixage, il peut être pratique d’utiliser la police d’assurance qu’offre le 24 bits. Il vous garantira une plus grande marge de manoeuvre dans la gestion des volumes.
Bref, en travaillant vos projets en 48 kHz à 24 bits, vous vous assurez d’une qualité sonore optimale et du meilleur rendement de vos appareils.