析,他们对视频数据库的查询通常会是一个视频片段而很少会是单个的物理镜头。从信息量的角度分析,由几个镜头组成的视频片段有比单个镜头更多的语义,它可以表示用户感兴趣的事件,因此,查询的结果也比较有意义。例如在新闻中检索感兴趣的事件、电影中检索喜欢的情节、体育节目中检索喜爱的体育运动、电视台检索某条广告是否播出等。
由于视频拍摄的多样性和后期编辑的复杂性,片段的相似性有多种可能。把片段检索分为这样两种类型:(1)精确检索:要检索的片段与例子片段完全一样,具有同样的镜头和帧序列;(2)相似性检索:有这样两种情况:一种是对原视频进行了各种编辑,如插入删除帧(慢镜头快镜头)、插入删除镜头、交换帧镜头顺序等;另一种是不同拍摄的同类节目,如不同的足球比赛等。实际的视频节目一般都是这两种类型的综合,其中,相似性检索更为普遍。因此,一个好的片段检索算法,应该能够在合理的时间内同时进行这两种类型片段的检索。
1.2 数字视频压缩
数字视频压缩一般要经过采样,预处理,帧间预测,变换,量化,嫡编码,打包等几个步骤。图2一1是MPEG一4标准的视频编码器方框图。其他视频编码器的结构也是类似的。
编码器能够处理的一般是几种特定格式的数字视频。数字视频的格式参数包括亮度色度的空间采样比例(有4:4:4,4:2:2,4:2:0等),采样的帧速率(有10,24,25,30,50,60等),扫描方式(逐行或隔行),颜色表示方法(有RGB,YUV,YCbCr等),量化精度(一般是8位)等等。如果视频的格式不在编码器能够处理的格式范围之内,就需要将其转换为能够处理的格式。对于MPEG一4等基于对象的编码器,首先要对原始视频进行分割,将视频的每一帧分割成若干区域;然后在图像分割的基础上进行场景分析,把意义上相关的区域连接起来,形成若干视频对象;最后分析视频对象之间的关系,形成场景描述。这一段工作的难度是最大的,因为仅仅依靠图像的物理特征是不够的,还需要先验知识或者人工干预。在MPEG一4标准中,并没有对这一步采用的方法作出规定。对MPEG一2等基于宏块的编码器,则不需要进行图像分割,直接把符合格式要求的视频序列送给下一步的帧间预测器就可以了。