IP网络视频传输:技术、标准和应用
上QQ阅读APP看书,第一时间看更新

1.2.2 视频信号的数字化

(1)模拟视频信号

视频播放和电影放映的原理一样,都是利用人眼视觉暂留效应(一种“错觉”),把快速更换的、变化微小的画面看成是连续变化的场景,实现从图像到视频,即从静止图像到活动图像变化。在视频系统中,我们面对的信源——现实世界的场景是“模拟”的,即场景的三维尺寸、彩色变化和运动等是连续的;我们的信宿——自己的眼睛也是“模拟”的,即对一定范围内连续变化的光强和波长是能够准确感知的。可见,自然世界原本是模拟的,媒体信号原本是模拟的,所谓数字信号则是人为设置的一种中间状态,其目的是为了方便处理、存储和传输。数字化是一种信号处理方法,把在模拟域不便处理的对象转移到数字域以方便处理。视频信号、音频信号、图文信号等都是如此。可以设想,如果不需要存储和传输视频信号,就可以无需高效处理,直接用模拟信号显示即可。

①扫描和采样

不论是PAL制式还是NTSC制式的视频信号,它们都是模拟信号,要想让数字设备能够处理它们,就必须先进行数字化,即模拟到数字(A/D)转换。而模拟视频信号体系的基本特点是用扫描(Scan)方式把三维图像信号fxyt)转化为一维随时间变换的信号。图1.6是视频信号扫描、采样过程的示意图。

在模拟视频系统中,扫描后的视频信号在时间方向上(t维)把视频分为离散的一帧一帧的图像;在每一帧图像内又在垂直方向上(y维)将图像离散为一条一条的水平扫描行。把视频分成若干帧的过程,实际是在时间方向上进行采样;把图像分成若干行的过程,实际是在垂直方向上进行采样。在时间方向和垂直方向上的采样间距往往由模拟视频系统决定。因此,我们在数字化采样时,可供自由处置的只有水平方向(x维),在水平方向上可以设置不同的采样间隔。

图1.6 电视信号的扫描及采样

②复合视频和分量视频

在模拟视频信号(基带信号)的频谱中,亮度信号占据整个基带信号带宽,为了节省彩色信号的带宽,将色度信号先调制在彩色副载波上,再将调制好的彩色信号插入亮度基带信号的高频段,形成复合视频信号。这样,在数字化视频的方法中,就可能有两类方法:一类是直接对包括彩色副载波在内的复合视频信号进行采样、量化和编码,简称复合方式;另一类是先将复合视频信号分解为一个亮度信号(Y)和两个色差信号(B-Y和R-Y),然后分别对这3个分量进行采样、量化和编码,简称分量方式。

在复合信号的数字系统中,模拟NTSC制或PAL制信号由模拟设备产生,再由A/D转换器对它进行转换,形成复合数字视频输出。由于彩色副载波在模拟视频信号中是一个载有重要信息的高能量的分量,它必须在幅度上和相位上精确地再生,所以常使用和彩色副载波相同步的采样频率。大多数的复合系统采用3倍或4倍的副载波频率进行同步采样。这种数字化方式的不足之处是数字化以后的视频仍然和模拟视频的不同制式密切相关,不利于国际互通。因此,现在的数字化视频信号都是基于分量的方式。

(2)视频信号的数字化

理论上说,视频图像的连续性包含3个方面的含义,即空间位置延续的连续性、每一个位置上光强度变化的连续性和时间方向变化的连续性。连续的视频图像无法用计算机等数字化设备进行处理、传输或存储,所以必须将连续(模拟)的视频信号转变为离散的数字视频信号,这个转变的过程称为视频信号的数字化,包括采样、量化和编码这3项操作。

①图像的采样

图像在空间上的离散化过程称为采样或取样(Sampling),被选取的点称为采样点或样点,这些采样点也称为像素(Pixel)。在采样点上的函数值称为采样值或样值。采样实质上是用空间有限采样点的函数值代替连续坐标上的函数值。一幅图像应取多少样点才能够完全由这些样点重建原图像?如果样点取得过多,则增加了用于表示这些样点的数据量;如果样点取得过少,则有可能会丢失原图像所包含的信息。所以最少的样点数应该满足一定的约束条件:由这些样点,采用某种方法能够完全重建原图像。实际上,这就是二维采样定理的内容,对这部分有兴趣的读者可以参考其他教科书。

②样值的量化

经过采样的图像,只是在空间上被离散成为像素(样点)的阵列,而每个样本的灰度值仍是一个有无穷多取值的连续变化量,必须将其转化为有限个离散值才能被赋予不同码字成为数字图像,这种转化称为量化(Quantization)。如果对每个样值进行独立处理,称为标量(Scalable)量化;如果对多个样值联合起来进行处理,则称为矢量(Vector)量化。视频数字化中主要采用的是标量量化方法,它包括两种方式:一种是将样本的连续灰度值空间进行等间隔分层的均匀量化,另一种是不等间隔分层的非均匀量化。以均匀量化为例,将整个取样点的样值范围等分为若干部分(量化级),分界处称为判决电平,两个判决电平之间的所有灰度值用一个量化值(量化电平)表示。

量化既然是以有限个离散值近似表示无限多个连续量,就一定会产生误差,这就是量化误差,由此所产生的失真即量化失真或量化噪声。当量化级数少到一定程度时,量化值与连续值之间的差值,即量化误差变得很显著,会引起严重的图像失真,尤其会在原先亮度值缓慢变化的区域引起生硬的“伪轮廓”失真。随着量化级数的增加,由量化引起的失真会逐渐减少,但量化级数的增加意味着表示图像信息的数据量的增加。因此,量化的级数最终是在失真和数据量之间的一种折衷选择,其原则是在量化噪声对图像质量的影响可忽略或可接受的前提下用最少的量化级数进行量化。

③量化值的编码

经过取样,连续图像实现了空间的离散化,形成样点;经过量化,样点的连续灰度值实现了离散化,形成离散的样点值。对于这样离散以后有限的灰度量,可以用二进制或多进制的数字表示,这种表示就是“编码”,即用特定的符号表示离散的量值。最常见的编码方法就是自然二进制编码,如十进制的0、1、2、3……编码成二进制的000、001、010、011……

在量化中,通常量化级数K取为2的n次幂,即K=2nn为自然数。这样,每个量化区间的量化电平可采用n比特自然二进制码表示,形成最通用的脉冲编码调制(PCM,Pulse Code Modulation)码字。对于均匀量化,由于是等间隔分层,量化分层越多,每一层的间隔,即量化步长(Quantization Step)越小,量化误差也越小,但编码时占用比特数就越多。在图像的PCM编码中,最常用的是8 bit量化,将图像灰度等级均匀分为28=256层,顺序从0~255,样值落在哪个分层内,就用该分层的顺序号作为样值的量化值输出。例如,输入某一图像样本幅度为127.2,则量化为127,可用8 bit二进制码01111111表示。

值得注意的是,量化的概念本来是指对连续样值进行的一种离散化处理过程,无论是标量量化还是矢量量化,其对象都是连续值。在后面介绍视频压缩编码时,还会遇到另一种“量化”处理,那里的量化不是数字化过程中的量化,它是对已经数字化后的图像值(或图像经过某种变换以后的系数值)进行量化,这种量化的目标是实现对数据的压缩。因此在实现压缩量化时,往往是首先将连续量采用足够精度的均匀量化方法形成数字量,即通常所说的PCM编码(几乎所有的A/D变换器都是如此),再根据需要,在数字图像的基础上实现均匀、非均匀的标量量化或矢量量化。

经过取样、量化和编码将模拟视频转化为数字视频,这种转化是对3个视频分量分别进行数字化处理,避免了不同电视制式的彩色副载波影响问题。尽管对不同制式的视频采用了统一的取样频率,但数字视频是从模拟电视演变、发展而来,至今仍带有模拟电视的影响,比如画面的宽高比、帧频(每秒钟显示的画面数)、隔行和逐行扫描等,还或多或少携带着不同制式的痕迹。

(3)量化信噪比

在对采样值进行n bit的线性PCM编码时,每个量化分层间隔(量化步长)的相对值为,假定采样值在其动态范围内的概率是均匀分布,则可以证明,量化误差的均方值Nq(相当于噪声的功率)为

参照信噪比的定义,将峰值信号功率Spp(其相对值为1)与量化均方噪声Nq之比的对数定义为量化峰值信噪比,单位为分贝(dB),其表达式为

式(1.2)为表征线性PCM性能的基本公式,通常简称其为量化信噪比。可看出,每个采样的编码比特数n直接关系到数字化的图像质量,每增减1 bit,就使量化信噪比增减约6 dB。每个样点的比特数又称作样点深度(Depth)或精度,对于一般的应用,如电视广播、视频通信等,采用的是8 bit量化,即这类图像8 bit的样点深度已基本能满足要求。但对某些应用,如高质量的视频图像、遥感图像、医学图像处理等,往往需要10 bit或更高精度的编码比特数表示。