本發(fā)明涉及圖像識別技術(shù)領(lǐng)域,具體涉及一種基于版式文件對電子文件矢量化的方法,該方法包括:獲取紙質(zhì)文檔的掃描位圖;獲取掃描位圖對應(yīng)的不同字體的矢量文字,獲取文字及矢量文字的對應(yīng)的外包圍框內(nèi)的二值圖像,獲取包圍框中心點(diǎn)到閉合邊緣上的距離并得到距離序列及距離序列集合;利用多個(gè)不同采樣尺度對距離序列集合進(jìn)行采樣得到目標(biāo)序列集合,計(jì)算文字及矢量文字對應(yīng)的目標(biāo)序列的相似度距離,并進(jìn)行KM匹配,根據(jù)匹配后的目標(biāo)序列的相似度距離獲取匹配效果評價(jià)值,獲取文字與對應(yīng)字體的矢量文字的字體匹配度,確定文字的替換對象,并得到矢量化后的文件,本發(fā)明精確確定了與文字匹配的字體的矢量文字,從而精準(zhǔn)實(shí)現(xiàn)文字的矢量化。