SLAM視覺(jué)詞袋模型技術(shù)詳解

大毛無(wú)人機(jī) ? 2020年9月21日下午6:00 ? 無(wú)人機(jī)知識(shí) ? 閱讀 1015

基于語(yǔ)義的圖像分類研究是一個(gè)涉及模式識(shí)別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)及圖像處理等多個(gè)研究領(lǐng)域的交叉研究方向，并受到學(xué)術(shù)界的廣泛關(guān)注。近幾年來(lái)，國(guó)際頂級(jí)學(xué)術(shù)期刊及頂級(jí)學(xué)術(shù)會(huì)議都發(fā)表了大量關(guān)于圖像語(yǔ)義分類的研究成果，其中，以視覺(jué)詞袋模型(Bag ofVisual Words, BoVW)和支持向量機(jī)為關(guān)鍵技術(shù)的圖像分類方法取得的性能最為突出，今天先就視覺(jué)詞袋模型這塊進(jìn)行詳細(xì)分享。

首先來(lái)看看，基于視覺(jué)詞袋模型的圖像分類系統(tǒng)由哪些結(jié)構(gòu)組成：

2003年，Sivic等提出了視覺(jué)詞袋模型。該模型將詞袋模型(Bag of Words, BoW)引入到了計(jì)算機(jī)視覺(jué)領(lǐng)域，取得了巨大成功?；谝曈X(jué)詞袋模型的圖像分類系統(tǒng)主要由四個(gè)部分組成，如圖1所示，分別為:圖像底層特征提取、視覺(jué)詞典生成、視覺(jué)詞匯特征構(gòu)建和分類器。由圖1可知，要完成圖像分類，首先需要生成一個(gè)規(guī)模適當(dāng)?shù)囊曈X(jué)詞典，又稱為視覺(jué)碼本；然后，對(duì)于一幅待處理圖像，提取出相應(yīng)的底層特征后，依據(jù)視覺(jué)詞典來(lái)構(gòu)建該圖像的視覺(jué)詞匯特征；最后，將該視覺(jué)詞匯特征輸入已訓(xùn)練好的分類器中，得到該圖像類別。

圖1基于視覺(jué)詞袋模型的圖像分類系統(tǒng)結(jié)構(gòu)

第一：圖像底層特征提取

一幅圖像的內(nèi)容是由其所有像素點(diǎn)的值來(lái)表達(dá)的，圖像底層特征就是通過(guò)一些算子從圖像，像素值中提取出能夠表達(dá)圖像內(nèi)容信息的統(tǒng)計(jì)量，通常為高維向量。圖像底層特征可以用來(lái)幫助表達(dá)圖像內(nèi)容，分析圖像特性及完成基于視覺(jué)信息的其它計(jì)算處理工作。特征提取是實(shí)現(xiàn)圖像分類的重要環(huán)節(jié)，提取的特征能否反映圖像的本質(zhì)屬性信息對(duì)分類系統(tǒng)的性能有著決定性的影響。

圖像底層特征需要考慮四個(gè)原則:區(qū)分能力、描述能力、計(jì)算復(fù)雜度以及存儲(chǔ)空間需求?？偟膩?lái)說(shuō)，底層特征可以分為全局特征和局部特征兩大類。全局特征指的是作用域?yàn)檎鶊D像的統(tǒng)計(jì)量，通常用來(lái)代表一幅圖像整體的色調(diào)、亮度、紋理特征等信息。而局部特征指的是作用域?yàn)閳D像局部區(qū)域的統(tǒng)計(jì)量,通常用來(lái)描述圖像中信息豐富區(qū)域的特性，可用于圖像中物體、目標(biāo)的檢測(cè)和定位。下面分別對(duì)圖像的全局特征和局部特征進(jìn)行簡(jiǎn)單的介紹。

1.全局特征

圖像全局特征的研究起步較早，技術(shù)相對(duì)比較成熟，主要包括顏色、紋理、形狀等特征，通常用于基于內(nèi)容的圖像檢索(Content-Based Image Retrieval, CBIR)。

(1)顏色特征

顏色特征作為最早被開(kāi)發(fā)利用的視覺(jué)特征，被廣泛用于圖像檢索中。與其它全局視覺(jué)特征相比，顏色特征具有特征提取和相似度計(jì)算簡(jiǎn)便的特點(diǎn)，并且對(duì)圖像的尺度、方向、視角變化不敏感，具有較強(qiáng)的穩(wěn)健性。提取圖像的顏色特征，首先需要選擇合適的顏色色彩空間，較常用的顏色空間有RGB、HSV、YCrCb、HMMD等。全局顏色特征主要包括顏色直方圖、顏色矩、顏色集、顏色熵等。全局顏色特征無(wú)法表達(dá)圖像顏色的空間分布信息，忽略了顏色在二維空間中的分布特性。因此，為了在圖像特征中加入圖像顏色的空間位置信息，一些新的顏色特征也被研究和應(yīng)用，主要有顏色聚合向量、顏色相關(guān)圖、顏色空間分布熵、馬爾科夫隨機(jī)特征等。

(2)紋理特征

紋理特征是所有物體表面共有的內(nèi)在特性，是一種不依賴于顏色或亮度的反映圖像同質(zhì)現(xiàn)象的視覺(jué)特征。紋理特征包含了物體表面結(jié)構(gòu)組織排列的重要信息，其表現(xiàn)為圖像上灰度或顏色分布的規(guī)律性。早在二十世紀(jì)七十年代，Tamura 等就從視覺(jué)感知心理學(xué)研究出發(fā)，提出了紋理特征的表達(dá)。Tamura 紋理特征共包含6個(gè)分量:粗糙度、對(duì)比度、方向度、線性度、規(guī)整度和粗略度，分別對(duì)應(yīng)心理學(xué)角度上的6種屬性。Haralick 等利用共生矩陣描述圖像紋理特征的方法，從數(shù)學(xué)角度研究了圖像中灰度級(jí)的空間依賴性并采用矩陣的形式記錄這種依賴性的統(tǒng)計(jì)信息。此外，Gabor 過(guò)濾作為一種紋理特征，能夠在最大程度上減少空間和頻率的不確定性，同時(shí)還能有效地檢測(cè)出圖像中不同方向、角度上的邊緣和線條。

(3)形狀特征

形狀特征以對(duì)圖像中物體和區(qū)域的分割為基礎(chǔ)，是圖像表達(dá)和圖像理解中的重要特征。直觀上，人們對(duì)物體形狀的變換、旋轉(zhuǎn)和縮放不敏感，所以，形狀特征也應(yīng)具有對(duì)應(yīng)的不變性。圖像形狀特征大致分為兩：區(qū)域特征和輪廓特征，前者基于整個(gè)形狀區(qū)域而后者則利用物體的邊界。比較典型的形狀特征主要包括傅立葉形狀描述符、形狀無(wú)關(guān)矩等。

2.局部特征

全局特征計(jì)算簡(jiǎn)單快捷，但存在明顯的缺點(diǎn)：只考慮了圖像的全局統(tǒng)計(jì)信息，而忽略了圖像的局部相關(guān)信息。有文獻(xiàn)指出，人類視覺(jué)系統(tǒng)通常是將物體分成許多區(qū)域，并綜合各個(gè)區(qū)域的局部信息加以識(shí)別判斷。與全局特征相比，局部特征在圖像噪聲干擾較大、背景復(fù)雜、存在重疊及物體形變等情況下仍能保持良好的性能，逐漸成為近年來(lái)的研究熱點(diǎn)。常用的局部特征，都能夠?qū)D像的平移、亮度、旋轉(zhuǎn)和尺度等的變化保持一定的不變性，被廣泛應(yīng)用于圖像分類檢索、圖像配準(zhǔn)、目標(biāo)識(shí)別等領(lǐng)域。

圖像局部特征提取一般包含兩個(gè)步驟：局部特征點(diǎn)檢測(cè)和局部特征描述。局部特征點(diǎn)檢測(cè)，是通過(guò)采用適當(dāng)?shù)臄?shù)學(xué)算子檢測(cè)圖像中梯度分布極值點(diǎn)所在的位置或區(qū)域。相關(guān)研究表明，這樣的極值點(diǎn)對(duì)應(yīng)的區(qū)域包含的視覺(jué)信息比較豐富，其對(duì)應(yīng)的特征向量也具有很強(qiáng)的區(qū)分能力和描述能力。目前，主要的局部特征點(diǎn)檢測(cè)算子有: DoG算子、 MSER算子、Hrris-Affine算子和Hessian-Affine算子。確定局部特征點(diǎn)對(duì)應(yīng)的局部區(qū)域后，需要生成有效的局部特征描述，通常為高維向量。

現(xiàn)階段，主流的局部特征主要有形狀上下文(Shape Contexts) 、尺度不變特征變換( Scale Invariant Feature Transform, SIFT)、PCA-SIFT、梯度位置方向直方圖( Gradient Location and Orientation Histogram, GLOH) 等。為深入對(duì)比分析局部特征性能，Mikolajczyk等對(duì)幾種常用的局部特征進(jìn)行了性能測(cè)試，結(jié)果表明SIFT特征及在其基礎(chǔ)上得到的GLOH特征的性能最突出。

SIFT特征最初由Lowe教授于1999年提出，后在2004年Lowe教授又對(duì)其進(jìn)行了進(jìn)一步完善，是當(dāng)前最常用的局部特征。SIFT特征能夠有效描述圖像的局部區(qū)域信息，對(duì)圖像旋轉(zhuǎn)、亮度變化和尺度變化具有不變性，對(duì)仿射變化、視角變化和噪聲也具有較強(qiáng)的魯棒性。由于性能突出，SIFT特征被廣泛用于圖像分類、場(chǎng)景識(shí)別和目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)領(lǐng)域。

第二：視覺(jué)詞典生成

局部特征能夠表征圖像的底層視覺(jué)特性，被大量用于圖像內(nèi)容分析中。但是，圖像局部特征大多位于高維空間，不便于進(jìn)行存儲(chǔ)和后續(xù)計(jì)算。此外，高維向量通常還面臨稀疏、噪聲等“維數(shù)災(zāi)難”問(wèn)題，導(dǎo)致在低維空間表現(xiàn)良好的算法到了高維空間其性能急劇惡化。因此，需要將圖像的高維局部特征映射到低維空間，以便于存儲(chǔ)、索引和計(jì)算。將大量局部特征映射到低維空間，得到局部特征對(duì)應(yīng)的編碼，這些編碼就稱為視覺(jué)單詞，所有的視覺(jué)單詞構(gòu)成視覺(jué)詞典。

視覺(jué)詞典的優(yōu)劣直接影響著系統(tǒng)的性能表現(xiàn)，如何構(gòu)建區(qū)分性好、表達(dá)能力強(qiáng)的視覺(jué)詞典，成為近些年來(lái)基于視覺(jué)詞袋模型的圖像分類研究的重點(diǎn)。根據(jù)視覺(jué)詞典生成過(guò)程中是否利用訓(xùn)練集中已知類別標(biāo)注等信息，可將視覺(jué)詞典生成方式分為兩類:無(wú)監(jiān)督生成視覺(jué)詞典和有監(jiān)督生成視覺(jué)詞典。

1.無(wú)監(jiān)督生成視覺(jué)詞典

無(wú)監(jiān)督生成視覺(jué)詞典，通常是利用成熟的主成分分析，無(wú)監(jiān)督聚類、哈希映射等方法將局部特征集映射為視覺(jué)單詞集合，得到視覺(jué)詞典。無(wú)監(jiān)督方法不需要用到局部特征的類別、標(biāo)注等信息，省略了復(fù)雜的學(xué)習(xí)過(guò)程，視覺(jué)詞典生成速度較快。

K-Means算法作為一種最常用的聚類方法，因其直觀易懂，被廣泛用于對(duì)圖像局部特征進(jìn)行聚類，生成視覺(jué)詞典。早在2003年，視覺(jué)詞袋模型的提出者就是采用K-Means聚類算法對(duì)局部特征集進(jìn)行聚類得到視覺(jué)詞典。針對(duì)傳統(tǒng)基于K-Means聚類生成視覺(jué)詞典存在的一些問(wèn)題，研究人員提出了一系列改進(jìn)方案。

為減弱局部特征高維度和稀疏性對(duì)K-Means聚類效果的影響，Zhong等提出了球形K-Means聚類算法( Spherical K-Means)。Bolovinou 等進(jìn)一步驗(yàn)證了采用該聚類方法生成的視覺(jué)詞典，其表達(dá)能力得到了增強(qiáng)。

為提高K-Means聚類收斂速度, Philbin提出了近似K-Means聚類算法( ApproximateK-Means, AKM)，并將其應(yīng)用到目標(biāo)檢索領(lǐng)域。Wang 等提出了快速近似K-Means聚類算法(Fast Approximate K-Means, F-AKM)，通過(guò)有效識(shí)別簇之間交界處的數(shù)據(jù)點(diǎn)，減少了每輪迭代的計(jì)算量，進(jìn)一步加快了聚類收斂速度，提高了生成視覺(jué)詞典的效率。

此外，考慮到常用的局部特征，如SIFT 特征，實(shí)質(zhì)上都是高維直方圖，為提高高維直方圖相似性度量的有效性, Wu等提出了一種基于直方圖相交核( Histogram IntersectionKernel, HIK) 的K-Means聚類方法生成視覺(jué)詞典，并在目標(biāo)識(shí)別實(shí)驗(yàn)中驗(yàn)證了該視覺(jué)詞典的良好性能。

由于傳統(tǒng)K-Means聚類方法得到的視覺(jué)詞典內(nèi)部沒(méi)有任何索引結(jié)構(gòu)，查找特定視覺(jué)單詞的復(fù)雜度較高，有研究者采用分層K-Means聚類算法( Hierarchical K-Means, HKM)生成詞匯樹(shù)( Vocabulary Tree)提高了視覺(jué)單詞的查找速度。

除了K-Means及其改進(jìn)算法，也有研究者采用高斯混合模型(Gaussian Mixture ModelGMM)生成視覺(jué)詞典。Avithis 等提出一種近似高斯混合模型(Approximate GaussianMixtures)并將其用于構(gòu)建大規(guī)模視覺(jué)詞典。該方法不但計(jì)算復(fù)雜度低，而且圖像檢索實(shí)驗(yàn)也表明采用該方法生成的視覺(jué)詞典具備良好的表達(dá)能力。

除了聚類方法，哈希映射方法也常被用來(lái)生成視覺(jué)詞典。Mu等借助位置敏感哈希(Locality Sensitive Hashing, LSH) 對(duì)局部特征進(jìn)行降維映射，生成了一組隨機(jī)化位置敏感詞典(Randomized Locality Sensitive Vocabularies, RLSV)。與K-Means方法相比，該方法計(jì)算復(fù)雜度低，能夠有效減弱“維數(shù)災(zāi)難”帶來(lái)的問(wèn)題。

2.有監(jiān)督生成視覺(jué)詞典

為進(jìn)一步提高視覺(jué)詞典的表達(dá)能力，越來(lái)越多的研究者開(kāi)始探討有監(jiān)督生成視覺(jué)詞典的方法。

Moosmann等借鑒極端隨機(jī)樹(shù)( Extremely,Randomized Trees, ERT)和隨機(jī)森林(Random Forests, RF)算法思想，構(gòu)建了一組隨機(jī)聚類森林( Randomized ClusteringForests)作為視覺(jué)詞典。該視覺(jué)詞典具有規(guī)模大，視覺(jué)單詞區(qū)分能力強(qiáng)的特點(diǎn)，能夠很好地用來(lái)描述圖像內(nèi)容。Lopez-Sastrel等提出了一種新的聚類質(zhì)量評(píng)價(jià)準(zhǔn)則來(lái)評(píng)價(jià)視覺(jué)單詞的語(yǔ)義代表能力，并在聚類過(guò)程中引入局部特征的類別信息，大幅度提高了視覺(jué)詞典的區(qū)分能力和語(yǔ)義表達(dá)能力。Kontschieder等提出將訓(xùn)練集圖像中物體標(biāo)簽的拓?fù)湫畔⒄系诫S機(jī)森林的訓(xùn)練當(dāng)中，有效地提高了視覺(jué)詞典的區(qū)分能力，改善了圖像標(biāo)注的性能。此外，考慮到來(lái)自相同類別目標(biāo)的視覺(jué)特征之間具有一定的相關(guān)性，Zhou 等提出采用Fisher判別準(zhǔn)則對(duì)視覺(jué)詞典的生成過(guò)程進(jìn)行監(jiān)督，增強(qiáng)了特定視覺(jué)單詞對(duì)相應(yīng)類別目標(biāo)的表達(dá)能力，提高了目標(biāo)識(shí)別的準(zhǔn)確率。上述有監(jiān)督生成視覺(jué)詞典的方法，都利用了局部特征的類別信息，并設(shè)定相應(yīng)準(zhǔn)則指導(dǎo)視覺(jué)詞典的生成過(guò)程，達(dá)到提高視覺(jué)詞典表達(dá)能力的目的。

除了利用局部特征的類別信息，有的視覺(jué)詞典生成方法進(jìn)一步利用了局部特征間的相關(guān)性信息。有專家團(tuán)隊(duì)將圖像塊在特征域的相似性與空間域上的上下文語(yǔ)義共生關(guān)系相結(jié)合，構(gòu)造出語(yǔ)義含義更明確的視覺(jué)單詞，提高了視覺(jué)詞典性能，改善了場(chǎng)景分類的效果。

Zhou等采用了空間約束的分層模糊k-Mcans ( Hierarchical ruzzy k-Means with Spatial Constraints, FCM-HS)方法將SIFT特征的空間上下文信息植入到詞匯樹(shù)的生成過(guò)程中，提高了聚類準(zhǔn)確度，有效地減弱了視覺(jué)單詞的語(yǔ)義模糊度。Yang 等提出了一種有監(jiān)督的EM迭代算法，將局部特征的空間上下文信息作為邊信息(Side Information),對(duì)聚類生成視覺(jué)詞典的過(guò)程進(jìn)行約束，提高了視覺(jué)單詞的語(yǔ)義區(qū)分能力。

第三：視覺(jué)詞匯特征構(gòu)建

依據(jù)生成的視覺(jué)詞典，可以對(duì)圖像底層特征進(jìn)行編碼，將圖像的底層特征表示轉(zhuǎn)化為視覺(jué)單詞表示，構(gòu)建圖像的視覺(jué)詞匯特征。

傳統(tǒng)的視覺(jué)詞袋模型采用矢量量化( Vector Quantization)對(duì)底層特征編碼，從而構(gòu)建圖像的視覺(jué)詞匯直方圖。矢量量化的具體過(guò)程為：對(duì)于待編碼的底層特征，計(jì)算它與視覺(jué)詞典中各個(gè)視覺(jué)單詞間的距離，找到與其相距最近的視覺(jué)單詞代替這個(gè)底層特征。矢量量化的編碼方式簡(jiǎn)單易懂，也最容易被接受，因?yàn)槿藗兺ǔＵJ(rèn)為相距越近的特征越相似。對(duì)圖像中所有底層特征進(jìn)行矢量量化，得到每個(gè)底層特征對(duì)應(yīng)的視覺(jué)單詞，再統(tǒng)計(jì)圖像中每個(gè)視覺(jué)單詞出現(xiàn)的頻次就可以得到視覺(jué)詞匯直方圖來(lái)表示該圖像。

Philbin等提出采用軟分配方法( Soft Assignment, SA)構(gòu)建視覺(jué)詞匯直方圖，將SIFT特征分配給多個(gè)與其相距較近的視覺(jué)單詞。該方法能夠有效地減小由量化誤差引起的噪聲，在一定程度上減弱了視覺(jué)單詞同義性和歧義性的負(fù)面影響。Jegou等應(yīng)用漢明嵌入(Hamming Embedding, HE)記錄SIFT特征在特征空間的粗略位置信息，彌補(bǔ)了傳統(tǒng)矢量量化方法的不足，有效提高了SIFT特征與視覺(jué)單詞的匹配準(zhǔn)確度。Jiang 等提出了軟加權(quán)方法(Soft-Weighting) 將SIFT特征分配給多個(gè)近鄰視覺(jué)單詞，并賦予不同的權(quán)重，提高了圖像分類的準(zhǔn)確率。Gemert 等提出了視覺(jué)單詞不確定性( Visual Word Uncertainty )模型，該模型同樣是采用軟分配策略對(duì)SIFT 特征編碼，進(jìn)一步驗(yàn)證了軟分配方法對(duì)于減弱視覺(jué)單詞同義性和歧義性影響的有效性。Liu等針對(duì)傳統(tǒng)軟分配方法中忽略了SIFT特征潛在的流形結(jié)構(gòu)的問(wèn)題，提出了一種局部軟分配(Localized Soft Assignment)的編碼方式，進(jìn)一步提升了視覺(jué)詞匯特征的準(zhǔn)確性，提高了圖像分類準(zhǔn)確率。Wang 等提出了一種多重分配( Multiple Assignment)和視覺(jué)單詞加權(quán)方案，同樣將SIFT特征與多個(gè)視覺(jué)單詞進(jìn)行匹配，有效地減弱了視覺(jué)單詞同義性和歧義性對(duì)圖像檢索性能的影響。Yu等提出了上下文嵌入直方圖(Context-embedded BoVW Histogram)模型，充分利用語(yǔ)義上下文信息減弱視覺(jué)單詞的歧義性。

另一方面，視覺(jué)詞匯直方圖作為圖像的視覺(jué)詞匯特征，只刻畫(huà)了視覺(jué)單詞在圖像中出現(xiàn)的頻次，忽略了視覺(jué)單詞在圖像中的空間信息。合理地利用視覺(jué)單詞的空間信息，有助于構(gòu)建信息量更豐富的視覺(jué)詞匯特征，從而提高圖像分類的準(zhǔn)確率。為此，研究人員進(jìn)行了深入研究。

Lazebnik等從原始的金字塔匹配出發(fā)，提出了空間金字塔匹配模型。該模型能夠粗略利用視覺(jué)單詞在圖像中的絕對(duì)位置信息。Shotton等采用與金字塔匹配類似的方法開(kāi)發(fā)利用高維局部特征空間的分層結(jié)構(gòu)信息，提出了語(yǔ)義紋理基元森林方法，在圖像分類實(shí)驗(yàn)中性能表現(xiàn)出色。Sharma等對(duì)原始的空間金字塔匹配方法進(jìn)行了擴(kuò)展，提出了一種圖像空間自適應(yīng)分割方法，將局部特征的空間位置信息融入到視覺(jué)詞匯特征的構(gòu)建過(guò)程中。實(shí)驗(yàn)結(jié)果表明了該方法能夠很好地刻畫(huà)視覺(jué)單詞在圖像空間上的位置分布信息，提高了圖像表達(dá)的準(zhǔn)確度和圖像分類的效果。

第四：分類器

得到圖像的視覺(jué)詞匯特征后，為了完成圖像分類，需要建立分類器。分類器模型的研究已有很長(zhǎng)的歷史，廣義上可以劃分為兩個(gè)類別:生成模型(Generative Model)和判別模型(Discriminative Model)。

生成模型對(duì)樣本的聯(lián)合概率分布建模，得到聯(lián)合概率分布后，即可利用貝葉斯公式得到后驗(yàn)概率，從而完成分類。圖像分類中常用的分類模型主要有:概率隱語(yǔ)義分析( Probabilistic Latent Semantic Analysis, PLSA)模型以及隱狄利克雷分布(LatentDirichlet Allocation, LDA) 模型等。

判別模型根據(jù)訓(xùn)練樣本確定特征空間中分割兩類對(duì)象的決策邊界，從而完成兩類或多類的分類。判別模型沒(méi)有考慮樣本的聯(lián)合概率分布，直接對(duì)后驗(yàn)概率進(jìn)行求解。圖像分類中常用的分類模型主要有:支持向量機(jī)( Support Vector Machine, SVM)和條件隨機(jī)場(chǎng)(ConditionalRandom Field, CRF)等。

生成模型能夠很好地處理小樣本問(wèn)題，容易實(shí)現(xiàn)增量學(xué)習(xí)，所包含的信息也比判別模型更豐富，但模型的學(xué)習(xí)過(guò)程比較復(fù)雜。判別模型對(duì)分類特征的選擇比較靈活，學(xué)習(xí)過(guò)程也相對(duì)簡(jiǎn)單，分類速度比較快。但該模型的決策邊界取決于訓(xùn)練樣本，對(duì)訓(xùn)練樣本數(shù)量需求較大。而且，一旦樣本出現(xiàn)變化，需要重新學(xué)習(xí)新的分類模型。

當(dāng)前，在圖像分類領(lǐng)域，支持向量機(jī)是主流的分類方法。支持向量機(jī)建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上，在解決有限樣本、高維和非線性模式識(shí)別問(wèn)題中表現(xiàn)出優(yōu)異性能。支持向量機(jī)的基本原理是，在線性可分情況下，尋找最優(yōu)分類超平面(Optimal Hyperplane)，而對(duì)于線性不可分情況，首先通過(guò)非線性變換將輸入空間變換到一個(gè)高維空間，然后在這個(gè)新的高維空間中求取最優(yōu)分類超平面。

盡管視覺(jué)詞袋模型為現(xiàn)在研究熱點(diǎn)，但是也不可避免的存在著一些問(wèn)題，我們一起來(lái)看一下：

現(xiàn)階段的圖像分類方法大都依賴于圖像的底層特征，而“語(yǔ)義鴻溝”的存在會(huì)導(dǎo)致計(jì)算機(jī)無(wú)法準(zhǔn)確地從語(yǔ)義層面理解圖像，這是圖像分類研究無(wú)法回避的難題。雖然基于視覺(jué)詞袋模型的圖像分類技術(shù)得到了大量的理論研究和實(shí)踐，成為當(dāng)前解決圖像分類問(wèn)題的主流方法，但離真正的實(shí)用化還有很長(zhǎng)距離。其存在的主要問(wèn)題可歸結(jié)為以下三個(gè)方面。

1.視覺(jué)單詞的同義性和歧義性問(wèn)題

視覺(jué)單詞的同義性是指，多個(gè)視覺(jué)單詞所描述的視覺(jué)內(nèi)容具有很強(qiáng)的相似性，而歧義性是指多個(gè)視覺(jué)差異明顯的圖像內(nèi)容對(duì)應(yīng)同一個(gè)視覺(jué)單詞。與文本分析中的單詞不同，視覺(jué)單詞是人為學(xué)習(xí)圖像底層特征的分布得到的，沒(méi)有明確的語(yǔ)義含義。當(dāng)前，視覺(jué)詞典主要是采用K-Means及其改進(jìn)聚類算法生成的，這類聚類方法存在以下兩個(gè)缺陷:①在數(shù)據(jù)點(diǎn)密集區(qū)域得到的聚類中心偏多，而在數(shù)據(jù)點(diǎn)稀疏區(qū)域得到的聚類中心偏少;②遠(yuǎn)離聚類中心的數(shù)據(jù)點(diǎn)會(huì)使導(dǎo)致聚類中心向數(shù)據(jù)稀疏區(qū)域漂移。這兩個(gè)缺陷分別對(duì)應(yīng)視覺(jué)單詞的同義性和歧義性問(wèn)題。視覺(jué)單詞的同義性和歧義性問(wèn)題嚴(yán)重制約了視覺(jué)詞袋模型的性能。如何通過(guò)有效的聚類、隨機(jī)映射和距離度量學(xué)習(xí)等方法生成區(qū)分性好、表達(dá)能力強(qiáng)的視覺(jué)詞典是圖像分類領(lǐng)域的一大難題。

2.視覺(jué)詞匯特征中空間信息缺失的問(wèn)題

視覺(jué)詞匯直方圖表達(dá)圖像內(nèi)容的方式忽略了視覺(jué)單詞的空間信息。這種空間信息既包括視覺(jué)單詞的絕對(duì)位置信息，還包括視覺(jué)單詞間的相對(duì)位置關(guān)系信息。一幅圖像中視覺(jué)單詞的分布和排列并不是雜亂無(wú)章的，視覺(jué)單詞的共生特性和空間依賴性是圖像內(nèi)容、語(yǔ)義信息的重要體現(xiàn)。因此，視覺(jué)單詞間的空間位置關(guān)系信息對(duì)于圖像內(nèi)容和語(yǔ)義的表達(dá)是不可忽略的。充分挖掘和利用視覺(jué)單詞的空間分布信息，并將其有效地引入到視覺(jué)詞袋模型中，能夠增強(qiáng)模型的表達(dá)能力，提高圖像分類準(zhǔn)確率。

3.視覺(jué)單詞間語(yǔ)義相關(guān)性的度量問(wèn)題

為提高視覺(jué)詞典的表達(dá)能力，一方面要通過(guò)有效的聚類、度量學(xué)習(xí)等方法生成視覺(jué)單詞同義性和歧義性弱的視覺(jué)詞典；另一方面，對(duì)于生成好的視覺(jué)詞典，也需要有效地挖掘和度量視覺(jué)單詞間的語(yǔ)義相關(guān)性，如含義是否相近、相反等。有效地度量和利用視覺(jué)單詞間的語(yǔ)義相關(guān)性，并采用合理的方法構(gòu)建視覺(jué)詞匯特征，可以提高視覺(jué)詞袋模型的語(yǔ)義表達(dá)能力，提高圖像分類的準(zhǔn)確率。當(dāng)前，關(guān)于視覺(jué)單詞間語(yǔ)義相關(guān)性的研究還很少。如何快速有效生成區(qū)分性好、表達(dá)能力強(qiáng)的視覺(jué)詞典，如何將視覺(jué)單詞的空間信息融入到圖像視覺(jué)詞匯特征中，如何有效地度量和利用視覺(jué)單詞間的語(yǔ)義相關(guān)性，是當(dāng)前基于視覺(jué)詞袋模型的圖像分類技術(shù)的研究重點(diǎn)。

詞袋模型是目前SLAM研究中最常用的閉環(huán)檢測(cè)方法，而且基于ORB詞袋模型的SLAM系統(tǒng)，具有良好的實(shí)時(shí)性,能夠有效提高SLAM系統(tǒng)的重定位準(zhǔn)確性,增強(qiáng)了系統(tǒng)的魯棒性。

特別是現(xiàn)在一些企業(yè)已經(jīng)開(kāi)發(fā)好的雙目視覺(jué)slam研發(fā)平臺(tái)，就是先利用視覺(jué)slam的位姿估計(jì)模塊實(shí)時(shí)獲取到雙目相機(jī)的圖像信息和IMU的位姿信息，然后通過(guò)視覺(jué)慣性融合算法計(jì)算出相機(jī)的深度信息、位置信息和運(yùn)動(dòng)姿態(tài)信息，并轉(zhuǎn)換為實(shí)時(shí)位姿信息，最后通過(guò)無(wú)人機(jī)位姿解算算法將相機(jī)的位姿信息轉(zhuǎn)換為無(wú)人機(jī)的位姿發(fā)送給無(wú)人機(jī)，實(shí)現(xiàn)無(wú)人機(jī)的自主定位。同時(shí)，視覺(jué)slam算法支持GPU加速技術(shù)，大幅提升運(yùn)算速度與精度。再基于詞袋技術(shù)，構(gòu)建視覺(jué)slam回環(huán)檢測(cè)模塊，使視覺(jué)slam所計(jì)算出來(lái)的位姿信息更加準(zhǔn)確。由相機(jī)發(fā)布的三維點(diǎn)云信息獲取無(wú)人機(jī)與障礙物之間的距離，并應(yīng)用自主導(dǎo)航避障算法生成可執(zhí)行路徑，實(shí)現(xiàn)無(wú)人機(jī)自主導(dǎo)航避障功能。

它在平臺(tái)組成方面，主要由信息交互與任務(wù)控制平臺(tái)、無(wú)人機(jī)系統(tǒng)等組成。

可提供的技術(shù)方案支持也非常具有前沿性，和適用性：

1、可提供視覺(jué)導(dǎo)航、SLAM、視覺(jué)避障、人工智能等領(lǐng)域最新的技術(shù)。

2、可提供完整的無(wú)人平臺(tái)控制、通訊鏈路、視覺(jué)圖像采集、圖像識(shí)別、三維重建、定位解算等軟件算法解決方案。提供VIO、LocalPlanner等多種實(shí)例程序，用戶只需要簡(jiǎn)單配置即可實(shí)現(xiàn)完整的自主定位、自主建圖、自主導(dǎo)航、自主避障等功能。

3、可提供全套的機(jī)器視覺(jué)與視覺(jué)導(dǎo)航的開(kāi)發(fā)環(huán)境、仿真環(huán)境、硬件平臺(tái)，所提供的硬件均提供完善的二次開(kāi)發(fā)接口和實(shí)例代碼，省去用戶從頭搭建開(kāi)發(fā)平臺(tái)的繁雜工作。

4、可提供全套的學(xué)科教學(xué)課程以及示例算法等，幫助快速展開(kāi)相關(guān)課程設(shè)計(jì)，進(jìn)行實(shí)際教學(xué)應(yīng)用階段

可開(kāi)設(shè)實(shí)驗(yàn)課程如下：

?SLAM教學(xué)；

?飛思視覺(jué)slam硬件平臺(tái)介紹；

?飛思視覺(jué)slam軟件平臺(tái)介紹；

?相機(jī)原理、點(diǎn)云原理、GPU加速原理簡(jiǎn)介；

?飛思視覺(jué)slam平臺(tái)支持的視覺(jué)slam架構(gòu)，

包括VINS，ORB_SLAM和Rovio，降低學(xué)校教師或?qū)W生學(xué)習(xí)SLAM的門(mén)檻；

?視覺(jué)slam主流技術(shù)介紹，包括多傳感器融合算法，KLT光流算法雙目VIO；

?視覺(jué)詞袋技術(shù)介紹；

?回環(huán)檢測(cè)技術(shù)介紹，包括重定位技術(shù)、全局位姿估計(jì)技術(shù)；

?無(wú)人機(jī)通信技術(shù)，包括Mavlimk介紹和Mavros介紹；

?自主導(dǎo)航避障算法介紹；

?飛思視覺(jué)slam平臺(tái)應(yīng)用實(shí)例介紹；

? 航線飛行實(shí)例，自主導(dǎo)航避障實(shí)。

隨著互聯(lián)網(wǎng)上圖像數(shù)據(jù)的急劇增長(zhǎng)，基于語(yǔ)義的圖像分類研究成為了當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。視覺(jué)詞袋模型作為基于語(yǔ)義的圖像分類主流方法存在諸多問(wèn)題，成為了研究的重點(diǎn)。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請(qǐng)發(fā)送郵件至2161241530@qq.com 舉報(bào)，一經(jīng)查實(shí)，本站將立刻刪除。如若轉(zhuǎn)載，請(qǐng)注明出處：http://www.sdanke.com/wurenjibaike/djiwurenzhishi/10989/

贊 (0)

大毛無(wú)人機(jī)認(rèn)證作者

0 0

無(wú)人機(jī)培訓(xùn)
山西晉中如何找無(wú)人機(jī)駕駛員培訓(xùn)機(jī)構(gòu)？（六大要點(diǎn)助您無(wú)人機(jī)培訓(xùn)挑選）
據(jù)初步估算，截止到2018年，我國(guó)無(wú)人機(jī)市場(chǎng)人才需求達(dá)20萬(wàn)人，其中，持證上崗人數(shù)僅幾千人，如此可見(jiàn)，我國(guó)無(wú)人機(jī)的專業(yè)人才需求量大，人力資源嚴(yán)重供不應(yīng)求，具備持證的專業(yè)無(wú)人機(jī)技術(shù)人…
大毛無(wú)人機(jī)
2021年6月14日
385
未分類
無(wú)人機(jī)中的OSD、數(shù)傳、圖傳、FPV分別是指什么？（無(wú)人機(jī)術(shù)語(yǔ)解讀）
前言：我們?cè)谕鏌o(wú)人機(jī)時(shí)經(jīng)常會(huì)聽(tīng)到上述術(shù)語(yǔ)，特別是對(duì)于新手，可能會(huì)感到困惑，下面就由筆者來(lái)大致的介紹一下。一、什么是OSD？ “OSD”是英文On Screen Display的縮…
大毛無(wú)人機(jī)
2021年8月9日
3.7K
無(wú)人機(jī)培訓(xùn)
2021年能飛湖北武漢分校多旋翼視距內(nèi)無(wú)人機(jī)駕駛員培訓(xùn)
能飛湖北武漢分校是全國(guó)首批經(jīng)中國(guó)航空器擁有者及駕駛員協(xié)會(huì)(AOPA)審定合格的專業(yè)級(jí)培訓(xùn)基地。進(jìn)行多旋翼、固定翼、直升機(jī)培訓(xùn)且擁有教員/機(jī)長(zhǎng)/駕駛員培訓(xùn)資格的教育機(jī)構(gòu)，是國(guó)內(nèi)首家無(wú)…
大毛無(wú)人機(jī)
2021年5月25日
591
無(wú)人機(jī)比賽
陜州地坑院無(wú)人機(jī)競(jìng)速技巧大賽
“飛越奇跡”2019陜州地坑院景區(qū)無(wú)人機(jī)競(jìng)速技巧大賽在有著“地平線下古村落，人類穴居活化石”之稱的地坑院景區(qū)啟幕。來(lái)自全國(guó)的近百位穿越機(jī)和固定翼高手齊聚一堂，在景區(qū)高低錯(cuò)落、空間立…
大毛無(wú)人機(jī)
2020年10月19日
1.1K
無(wú)人機(jī)比賽
甘肅省蘭州2021年全國(guó)青少年無(wú)人機(jī)創(chuàng)新教育競(jìng)賽都有哪些項(xiàng)目？
甘肅省蘭州2021年全國(guó)青少年無(wú)人機(jī)創(chuàng)新教育競(jìng)賽都有哪些項(xiàng)目？甘肅省蘭州2021年全國(guó)青少年無(wú)人機(jī)創(chuàng)新教育競(jìng)賽項(xiàng)目馬上就要開(kāi)始了?，F(xiàn)在，小伙伴們應(yīng)該都在準(zhǔn)備2021年的無(wú)人機(jī)比賽…
大毛無(wú)人機(jī)
2021年1月20日
959
無(wú)人機(jī)培訓(xùn)
河北唐山2021年無(wú)人機(jī)駕照怎么考？
近年來(lái)，我國(guó)無(wú)人機(jī)領(lǐng)域發(fā)展十分迅速。據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)發(fā)布的報(bào)告顯示，我國(guó)民用無(wú)人機(jī)市場(chǎng)已經(jīng)進(jìn)入快速增長(zhǎng)期，預(yù)測(cè)到2025年，國(guó)內(nèi)民用無(wú)人機(jī)市場(chǎng)規(guī)模將有望突破750億元。在這一背景下，…
大毛無(wú)人機(jī)
2021年6月4日
571
未分類
塔利班繳獲3套美國(guó)先進(jìn)無(wú)人機(jī)?。绹?guó)掃描鷹小型偵察無(wú)人機(jī)被繳獲）
8月12日，塔利班對(duì)外展示了他們?cè)趭Z取的昆都士空軍基地內(nèi)繳獲的戰(zhàn)利品情況，其中非常引人注目的是有至少3套非常先進(jìn)的美國(guó)掃描鷹小型偵察無(wú)人機(jī)被繳獲。這款無(wú)人機(jī)由波音公司研發(fā)，一套完整…
大毛無(wú)人機(jī)
2021年8月13日
683
無(wú)人機(jī)培訓(xùn)
山西長(zhǎng)治如何找無(wú)人機(jī)駕駛員培訓(xùn)機(jī)構(gòu)？（六大要點(diǎn)助您無(wú)人機(jī)培訓(xùn)挑選）
據(jù)初步估算，截止到2018年，我國(guó)無(wú)人機(jī)市場(chǎng)人才需求達(dá)20萬(wàn)人，其中，持證上崗人數(shù)僅幾千人，如此可見(jiàn)，我國(guó)無(wú)人機(jī)的專業(yè)人才需求量大，人力資源嚴(yán)重供不應(yīng)求，具備持證的專業(yè)無(wú)人機(jī)技術(shù)人…
大毛無(wú)人機(jī)
2021年6月14日
410
無(wú)人機(jī)教程
0基礎(chǔ)無(wú)人機(jī)新手教程（大疆無(wú)人機(jī)和遙控器的開(kāi)機(jī)方式）
首先我們要準(zhǔn)備好以下步驟：手機(jī)遙控器以及手機(jī)身和電池。（1）我們?cè)趹?yīng)用商店尋找Dji fly，找到并完成下載就可以了；（2）下載完成后，按照操作授予權(quán)限注冊(cè)賬號(hào)即可。下載a…
大毛無(wú)人機(jī)
2022年1月18日
1.9K
無(wú)人機(jī)培訓(xùn)報(bào)名
遼寧鞍山2021年AOPA無(wú)人機(jī)培訓(xùn)學(xué)?？荚噲?bào)名全攻略
隨著無(wú)人機(jī)行業(yè)迅速發(fā)展，以其獨(dú)特性正強(qiáng)勢(shì)擴(kuò)散到各行各業(yè)，吸引了不少人投入到這個(gè)朝陽(yáng)產(chǎn)業(yè)。無(wú)論是出于安全飛行考慮，還是就業(yè)需求，選擇一家正規(guī)專業(yè)的無(wú)人機(jī)培訓(xùn)機(jī)構(gòu)學(xué)習(xí)考取駕駛員合格證…
大毛無(wú)人機(jī)
2021年5月31日
532

發(fā)表評(píng)論

登錄后才能評(píng)論

SLAM視覺(jué)詞袋模型技術(shù)詳解

相關(guān)推薦

發(fā)表評(píng)論