Кодирование звука и видео

Кодирование звука и видео

ЗвукЗвук представляет собой волну с меняющейся интенсивностью и частотой (громкостью и его тональностью соответственно). Чем больше амплитуда, тем громче звук. Чем больше частота, тем больше тон. Хранение и передача аналогового звукового сигнала осуществляется за счёт представления его в виде электрического сигнала с помощью модуляции. Звуковой сигнал

Модуляция - процесс изменения одного или нескольких параметров (амплитуды, частоты или фазы) высокочастотного колебания по закону низкочастотного сигнала (несущей частоты).

Существуют разные виды модуляции: Амплитудная (АМ, amplitude modulation ) - изменение высокочастотных колебаний с частотой, равной частоте звукового сигнала. Например, несущей частотой может быть питание сети - 50 Гц. Или радиоволна СВ (MW) диапазона от 300 кГц до 3 МГц.Модуляция сигнала

 

Частотная (FM, frequency modulation - модуляция при которой информационный сигнал управляет несущей частотой. По сравнению с амплитудной модуляцией здесь амплитуда остаётся постоянной.


Цифровой сигнал

Для того чтобы аналоговый (непрерывный) сигнал представить последовательностью чисел определённой разрядности, его необходимо превратить в дискретный (прерывистый) сигнал, а затем подвергнуть квантованию. Дискретизация и квантованиеЗа кодирование звука отвечает звуковая карта, чем выше разрядность звуковой карты, тем больше уровней квантования она выдаёт и тем точнее становится звук при прослушивании. На современном ПК карта всегда интегрирована в материнской плате, и имеет разрядность не ниже 24 бит.

Оцифровка звука - дискретизация и квантование аналогового сигнала.

1-й этап: Дискретизация сигнала по времени

Допустим, Вы, с помощью микрофона записали свой голос длительностью 5 сек. Этот фрагмент можно разбить на равные малые временный отрезки, которые в сумме дают нам 5 сек. Получаем частоту дискретизации (f, Гц), которая является обратной величиной времени: t сек. При частоте дискретизации 8 кГц=8 000 Гц, из формулы получаем отрезок, равный 0,000125  сек. или 125 миллисекунд.

Частота дискретизации 2-й этап: Квантование сигнала по уровню

Чем больше уровней будет доступно для кодирования временных отрезков, тем ближе к аналогу будет закодированный файл, но при этом объём файла увеличится. Например, возьмём 8 уровней, чтобы их закодировать в двоичный код нам достаточно 3 бита, что мы получаем из формулы Хартли: формула Хартли

 

2³=8 - комбинаций двоичного ряда чисел от 000 до 111. Параметр (i) - называется глубина кодирования. 8 бит - 256 уровней, 16 бит - 65 536 уровней, 24 бита - более 16 млн. уровней.

3 этап: Определяем скорость потока звука

Частота дискретизации - 22 кГц, глубина кодирования - 16 бит. Произведение этих двух величин дает нам скорость потока 352 кбит/сек.

 

скорость потока Именно такой канал передачи данных потребуется для воспроизведения звукового файла в режиме он-лайн.

Расчёт количество звуковой информации

Для определения информационного объёма звуковой информации, нам необходимы следующие параметры: Объём звуковой информации

  • f - частота дискретизации (Гц);
  • t - время звучания звукового файла (сек.);
  • i - глубина кодирования (бит);
  • n - количество звуковых каналов (n = 1, моно; n = 2, стерео).

Задача 1: Одна минута записи цифрового аудиофайла занимает 1,3 МБ, разрядность звуковой платы — 8 бит. С какой частотой дискретизации записан звук? Решение: сетка Воспользуемся формулой: I=f∙t∙i∙n , из формулы видно что для нахождения частоты дискретизации формула примет вид: f=I/t∙i∙n. 1,3 МБ = 13,31,2 КБ = 1 363 148,8 Байт. Принимая во внимание что 8 бит = 1 Байту, делим 1 363 148,8 на 60, канал у нас записан 1, поэтому n=1. Ответ: 22719,1 Гц  или 22 050 Гц, см. основные настройки параметров звукового файла в программе Audacity

 

audacity

 

Задача 2: Две минуты записи цифрового аудиофайла занимают на диске 5,1 МБ. Частота дискретизации — 22 050 Гц. Какова разрядность аудиоадаптера? сетка

 

Решение: 5,1 МБ = 5 347 737,6 Байт, делим по формуле: i  = I / f∙ t ∙ n. 5 347 737,6 / 22 050 ∙ 120 = 2,02 Байт. Ответ: 16 бит.


Кодирование видео

Информация хранится на различных носителях в виде файлов. Файл занимает память и может быть измерен в единицах измерения информации: бит, Байт, КБ и т.д. Стремительное развитие интернета резко увеличило обмен информацией между людьми, для  оптимизации хранения данных люди стали использовать специальные алгоритмы сжатия. В основе цифрового видео лежит графический и звуковой файлы. Если рассчитать объём видеофайла без сжатия, нам необходимо учитывать тот факт, что человек начинает воспринимать смену кадров (картинок), как непрерывное плавное движение, если за 1 сек. будет мелькать 24 кадра.

Основы ТВ

Для приёма телевизионного сигнала используется антенна и приёмник. Приёмник - это электронная схема, которая преобразует сигнал в изображение на экране. В этом процессе участвует генератор кадровой развёртки и строчной. Кадровая развёртка формируется на частоте, близкой к частоте переменного тока в бытовых электросетях - 50 Гц. Кадровая развёртка, в сочетании со строчной служит для преобразования плоского двумерного изображения в одномерную последовательность, то есть, видеосигнал, а в телевизоре или мониторе компьютера для преобразования видеосигнала обратно в изображение на экране. Для создания такой последовательности, используются специальные стандарты разложения: 576i, 625/50 — стандарт разложения, принятый для аналогового и цифрового телевидения в Европе, России, Австралии, странах Африки и Азии. 576 - это количество активных строк для аналогового телевидения и число пикселей по вертикали, для цифрового. Буква «i», англ. Interlace означает чересстрочную развёртку, передающую 25 целых кадров в 50 полях за 1 секунду. 480i, 525/60 — стандарт разложения, принятый в США, число активных строк составляет 480. Существует также прогрессивная (p) кадровая развёртка, где все строки каждого кадра отображаются последовательно. Прогрессивная развертка стала широко распространена с появлением персональных компьютеров. Для комфортного чтения мелкого текста с экрана монитора, чересстрочная развертка стала малопригодна, так как мерцание строк вызывало быстрое утомление глаз. Помимо развёртки существует ещё и соотношение сторон: аналоговое ТВ - 4:3, цифровое ТВ - 16:9, широкоформатное.

Форматы со сжатием

Давайте для начала посчитает объём видеофайла без сжатия, длительность 1 час 30 мин., 576i, 16:9. Звук записан с частотой дискретизации - 44 100 Гц, глубина кодирования 24 бит. Решение:

 

Видео: I = 576 ∙ 1024 ∙ 25 ∙ 5400 ∙ 24 = 1 911 029 760 000 бит = 222,5 ГБ Звук: I = 44 100 ∙ 5400 ∙ 24 = 5 715 360 000 бит = 681,3 МБ = 0,665 ГБ Ответ: 223,2 ГБ. Графический формат JPEG Алгоритм JPEG (от англ. Joint Photographic Experts Group) в большей степени пригоден для реалистичных изображений с плавными переходами яркости и цвета, таковыми являются фотографии. В основу алгоритма заложен переход от цветового пространства RGB к цветовому пространству YCbCr. Y - компонент яркости, Cb и Cr - синий и красный цветоразностные компоненты. Суть сжатия состоит в том что для каждого блока пикселей 2х2 записывается не 12 значений, а 6, за счёт использования усреднённого компонента цвета.   Видео  и аудио форматы MPEG Алгоритм MPEG (англ. Moving Picture Experts Group) - стандарты сжатия и передачи цифровой видео и аудио информации. Базовым объектом кодирования в стандарте MPEG является кадр телевизионного изображения. Поскольку в большинстве фрагментов фон изображения остается достаточно стабильным, а действие происходит только на переднем плане, сжатие начинается с создания исходного кадра. При сжатии аудио используются хорошо разработанные психоакустические модели, чтобы выбросить звуки, которые не слышны человеческому уху. Современные цифровые стандарты Современные дисплеи и мониторы уже давно вышли за рамки старых добрых стандартов. Видео форматы

Стандарты современных дисплеев:

Стандарты дисплеев