中文引用格式: 于惠鈞,鄒志豪,康帥. 基于SAM和pix2pix的商品數(shù)據(jù)集生成網(wǎng)絡(luò)[J]. 電子技術(shù)應(yīng)用,2025,51(4):23-28.
英文引用格式: Yu Huijun,Zou Zhihao,Kang Shuai. Product data set generation network based on SAM and pix2pix[J]. Application of Electronic Technique,2025,51(4):23-28.
引言
在現(xiàn)代零售和無人結(jié)算系統(tǒng)中[1],商品識(shí)別技術(shù)[2]的準(zhǔn)確性和效率對(duì)于提升用戶體驗(yàn)和優(yōu)化商業(yè)運(yùn)營至關(guān)重要。然而,隨著商品包裝的快速變化,數(shù)據(jù)集的采集和標(biāo)注工作變得愈發(fā)復(fù)雜和耗時(shí),數(shù)據(jù)集的缺少[3]成為制約商品識(shí)別模型性能和應(yīng)用的主要瓶頸。傳統(tǒng)的數(shù)據(jù)集生成方法依賴大量人工標(biāo)注,不僅耗費(fèi)大量人力和時(shí)間,而且數(shù)據(jù)集更新不及時(shí),無法適應(yīng)市場中商品包裝的頻繁變化,導(dǎo)致模型的泛化能力不足,識(shí)別精度下降。
目前,盡管一些數(shù)據(jù)集增強(qiáng)方法已經(jīng)在圖像識(shí)別領(lǐng)域取得了進(jìn)展,但它們?cè)趹?yīng)對(duì)商品包裝快速變化方面仍然面臨諸多挑戰(zhàn)。首先,現(xiàn)有的商品識(shí)別模型大多依賴于靜態(tài)數(shù)據(jù)集,這些數(shù)據(jù)集無法涵蓋所有可能的商品包裝變化。其次,數(shù)據(jù)集的多樣性和豐富性對(duì)模型的訓(xùn)練效果至關(guān)重要,但現(xiàn)有方法在生成具有高度真實(shí)感的多樣化數(shù)據(jù)集時(shí)表現(xiàn)有限。此外,隨著商品種類的增加和市場變化的加速,傳統(tǒng)數(shù)據(jù)集生成方式顯得尤為笨重,難以滿足實(shí)際應(yīng)用的需求。因此,如何有效生成與實(shí)際結(jié)算場景相似的數(shù)據(jù)集,以提高商品識(shí)別模型的魯棒性和識(shí)別精度,成為當(dāng)前亟需解決的問題。
為了解決商品數(shù)據(jù)集采集和標(biāo)注工作的繁瑣問題,本文提出了一種基于分割一切模型(Segment Anything Model,SAM)[4]和圖像到圖像轉(zhuǎn)換網(wǎng)絡(luò)(Pixel to Pixel,pix2pix)[5]的商品數(shù)據(jù)集生成網(wǎng)絡(luò),旨在突破傳統(tǒng)數(shù)據(jù)集生成中的瓶頸。該網(wǎng)絡(luò)以單個(gè)商品的多角度圖像作為輸入,首先利用基于SAM改進(jìn)的圖像分割網(wǎng)絡(luò),從單個(gè)商品多角度圖像中精準(zhǔn)提取出包含目標(biāo)商品的部分。提取后的商品目標(biāo)圖像經(jīng)過姿態(tài)擬合后,隨機(jī)擺列組合形成商品拼接圖像。最后,這些拼接圖像通過基于pix2pix的圖像生成網(wǎng)絡(luò)轉(zhuǎn)換為接近實(shí)際結(jié)算場景的商品結(jié)算圖像。
由于單個(gè)商品的多角度圖像易于獲得,并且同一角度的商品只需標(biāo)注一次,這種方法能夠生成多種拼接圖像,擴(kuò)展商品擺放的多樣性,以應(yīng)對(duì)實(shí)際結(jié)算中不同商品擺放的情況。此外,基于pix2pix的圖像生成網(wǎng)絡(luò)可以針對(duì)各種實(shí)際結(jié)算場景進(jìn)行訓(xùn)練,從而有效降低環(huán)境因素對(duì)商品識(shí)別準(zhǔn)確率的影響。這一系列優(yōu)化措施使得商品識(shí)別系統(tǒng)在快速變化的商業(yè)環(huán)境中更加靈活和準(zhǔn)確
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://m.viuna.cn/resource/share/2000006389
作者信息:
于惠鈞1,2,鄒志豪1,康帥1
(1.湖南工業(yè)大學(xué) 軌道交通學(xué)院,湖南 株洲 412007;
2.湖南工業(yè)大學(xué) 電氣與信息工程學(xué)院,湖南 株洲 412007)