北纬一度——就这么飘来飘去: 颜色特征的提取

颜色特征是在图像检索中应用最为广泛的视觉特征，主要原因在于颜色往往和图像中所包含的物体或场景十分相关。此外，与其他的视觉特征相比，颜色特征对图像本身的尺寸、方向、视角的依赖性较小，从而具有较高的鲁棒性。

面向图像检索的颜色特征的表达涉及到若干问题。首先，我们需要选择合适的颜色空间来描述颜色特征；其次，我们要采用一定的量化方法将颜色特征表达为向量的形式；最后，还要定义一种相似度（距离）标准用来衡量图像之间在颜色上的相似性。在本节中，我们将主要讨论前两个问题，并介绍颜色直方图、颜色矩、颜色集、颜色聚合向量以及颜色相关图等颜色特征的表示方法。

1 颜色直方图

颜色直方图是在许多图像检索系统中被广泛采用的颜色特征。它所描述的是不同色彩在整幅图像中所占的比例，而并不关心每种色彩所处的空间位置，即无法描述图像中的对象或物体。颜色直方图特别适于描述那些难以进行自动分割的图像。

当然，颜色直方图可以是基于不同的颜色空间和坐标系。最常用的颜色空间是RGB颜色空间，原因在于大部分的数字图像都是用这种颜色空间表达的。然而，RGB空间结构并不符合人们对颜色相似性的主观判断。因此，有人提出了基于HSV空间、Luv空间和Lab空间的颜色直方图，因为它们更接近于人们对颜色的主观认识。其中HSV空间是直方图最常用的颜色空间。它的三个分量分别代表色彩（Hue）、饱和度（Saturation）和值（Value）。

计算颜色直方图需要将颜色空间划分成若干个小的颜色区间，每个小区间成为直方图的一个bin。这个过程称为颜色量化（color quantization）。然后，通过计算颜色落在每个小区间内的像素数量可以得到颜色直方图。颜色量化有许多方法，例如向量量化、聚类方法或者神经网络方法。最为常用的做法是将颜色空间的各个分量（维度）均匀地进行划分。相比之下，聚类算法则会考虑到图像颜色特征在整个空间中的分布情况，从而避免出现某些bin中的像素数量非常稀疏的情况，使量化更为有效。另外，如果图像是RGB格式而直方图是HSV空间中的，我们可以预先建立从量化的RGB空间到量化的HSV空间之间的查找表（look-up table），从而加快直方图的计算过程。

上述的颜色量化方法会产生一定的问题。设想两幅图像的颜色直方图几乎相同，只是互相错开了一个bin，这时如果我们采用L1距离或者欧拉距离（见3.1.1节）计算两者的相似度，会得到很小的相似度值。为了克服这个缺陷，需要考虑到相似但不相同的颜色之间的相似度。一种方法是采用二次式距离[4]（见3.1.3节）。另一种方法是对颜色直方图事先进行平滑过滤，即每个bin中的像素对于相邻的几个bin也有贡献。这样，相似但不相同颜色之间的相似度对直方图的相似度也有所贡献。

选择合适的颜色小区间（即直方图的bin）数目和颜色量化方法与具体应用的性能和效率要求有关。一般来说，颜色小区间的数目越多，直方图对颜色的分辨能力就越强。然而，bin的数目很大的颜色直方图不但会增加计算负担，也不利于在大型图像库中建立索引。而且对于某些应用来说，使用非常精细的颜色空间划分方法不一定能够提高检索效果，特别是对于不能容忍对相关图像错漏的那些应用。另一种有效减少直方图bin的数目的办法是只选用那些数值最大（即像素数目最多）的bin来构造图像特征，因为这些表示主要颜色的bin能够表达图像中大部分像素的颜色。实验证明这种方法并不会降低颜色直方图的检索效果。事实上，由于忽略了那些数值较小的bin，颜色直方图对噪声的敏感程度降低了，有时会使检索效果更好。两种采用主要颜色构造直方图的方法可以在文献[5,6]中找到。

2 颜色矩

另一种非常简单而有效的颜色特征使由Stricker 和Orengo所提出的颜色矩（color moments） [7]。这种方法的数学基础在于图像中任何的颜色分布均可以用它的矩来表示。此外，由于颜色分布信息主要集中在低阶矩中，因此仅采用颜色的一阶矩（mean）、二阶矩（variance）和三阶矩（skewness）就足以表达图像的颜色分布。与颜色直方图相比，该方法的另一个好处在于无需对特征进行向量化。因此，图像的颜色矩一共只需要9个分量（3个颜色分量，每个分量上3个低阶矩），与其他的颜色特征相比是非常简洁的。在实际应用中为避免低次矩较弱的分辨能力，颜色矩常和其它特征结合使用，而且一般在使用其它特征前起到过滤缩小范围（narrow down）的作用。

3 颜色集

为支持大规模图像库中的快速查找，Smith和Chang提出了用颜色集（color sets）作为对颜色直方图的一种近似[8]。他们首先将RGB颜色空间转化成视觉均衡的颜色空间（如HSV空间），并将颜色空间量化成若干个bin。然后，他们用色彩自动分割技术将图像分为若干区域，每个区域用量化颜色空间的某个颜色分量来索引，从而将图像表达一个二进制的颜色索引集。在图像匹配中，比较不同图像颜色集之间的距离和色彩区域的空间关系（包括区域的分离、包含、交等，每种对应于不同得评分）。因为颜色集表达为二进制的特征向量，可以构造二分查找树来加快检索速度，这对于大规模的图像集合十分有利。

4 颜色聚合向量

针对颜色直方图和颜色矩无法表达图像色彩的空间位置的缺点，Pass[9]提出了图像的颜色聚合向量（color coherence vector）。它是颜色直方图的一种演变，其核心思想是将属于直方图每一个bin的像素进行分为两部分：如果该bin内的某些像素所占据的连续区域的面积大于给定的阈值，则该区域内的像素作为聚合像素，否则作为非聚合像素。假设αi与βi分别代表直方图的第i个bin中聚合像素和非聚合像素的数量，图像的颜色聚合向量可以表达为<(α1, β1), (α2, β2), …, (αN, βN)>。而<α1 + β1, α2 + β2, …, αN +βN > 就是该图像的颜色直方图。由于包含了颜色分布的空间信息，颜色聚合向量相比颜色直方图可以达到更好的检索效果。