電商評(píng)論分類任務(wù)中數(shù)據(jù)集的建立和后續(xù)優(yōu)化及擴(kuò)充方案
基本信息
申請(qǐng)?zhí)?/td> | CN201910375040.7 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN110096574A | 公開(公告)日 | 2019-08-06 |
申請(qǐng)公布號(hào) | CN110096574A | 申請(qǐng)公布日 | 2019-08-06 |
分類號(hào) | G06F16/33;G06F16/35;G06Q30/06 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 鄭圓;丁丁;李平章;王航 | 申請(qǐng)(專利權(quán))人 | 上海寶尊電子商務(wù)有限公司 |
代理機(jī)構(gòu) | 上海卓陽(yáng)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 上海寶尊電子商務(wù)有限公司 |
地址 | 200436 上海市靜安區(qū)萬(wàn)榮路1188弄1、2、3號(hào)108室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明涉及一種電商評(píng)論分類任務(wù)中數(shù)據(jù)集的建立和后續(xù)優(yōu)化及擴(kuò)充方案,其特征在于,包括如下步驟:S1.對(duì)收集到的評(píng)論進(jìn)行預(yù)處理;S2.利用人工標(biāo)注平臺(tái)按照步驟S1制定的標(biāo)注規(guī)范進(jìn)行標(biāo)注,生成最初的數(shù)據(jù)集;S3.將步驟S1中預(yù)處理后的大量無(wú)標(biāo)簽的電商評(píng)論作為語(yǔ)料,采用Skip?Gram模型訓(xùn)練出適用于電商評(píng)論的詞向量,用于后續(xù)的模型訓(xùn)練,和數(shù)據(jù)集的擴(kuò)充和優(yōu)化;S4.利用詞向量對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行擴(kuò)充;S5.利用模型的實(shí)際自動(dòng)標(biāo)注結(jié)果,結(jié)合詞向量對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行優(yōu)化;S6.重復(fù)步驟S3至步驟S5,以實(shí)現(xiàn)數(shù)據(jù)集的持續(xù)更新。其優(yōu)點(diǎn)表現(xiàn)在:降低人工標(biāo)注耗費(fèi)的時(shí)間和人力,同時(shí)在最初的數(shù)據(jù)集生成之后,能夠進(jìn)行持續(xù)的擴(kuò)充和優(yōu)化以滿足后續(xù)自然語(yǔ)言處理的要求。 |
