一種基于無(wú)監(jiān)督學(xué)習(xí)的中文地址分詞方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN202210119464.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN114154501A 公開(kāi)(公告)日 2022-03-08
申請(qǐng)公布號(hào) CN114154501A 申請(qǐng)公布日 2022-03-08
分類(lèi)號(hào) G06F40/289(2020.01)I;G06K9/62(2022.01)I 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 辛穎梅;胡玉偉;江錫強(qiáng);鄭雪原;魏剛;張家寶;楊孟金 申請(qǐng)(專(zhuān)利權(quán))人 南京擎天科技有限公司
代理機(jī)構(gòu) 北京弘權(quán)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 逯長(zhǎng)明;許偉群
地址 211800江蘇省南京市浦口區(qū)經(jīng)濟(jì)開(kāi)發(fā)區(qū)天浦路26號(hào)
法律狀態(tài) -

摘要

摘要 本申請(qǐng)涉及地址分詞技術(shù)領(lǐng)域,提供一種基于無(wú)監(jiān)督學(xué)習(xí)的中文地址分詞方法及系統(tǒng),利用地址數(shù)據(jù)間的相關(guān)信息,即對(duì)于描述內(nèi)容不同的地址含有全部或部分相同或相近的特征詞,以及特征詞會(huì)在地址數(shù)據(jù)中反復(fù)出現(xiàn)的特性,通過(guò)LDA主題模型自動(dòng)挖掘出地址數(shù)據(jù)的候選特征詞;通過(guò)將地址數(shù)據(jù)切分成詞和字兩種形式,增強(qiáng)不同長(zhǎng)度特征詞的挖掘能力;利用特征詞在地址要素內(nèi)的詞位信息和詞頻信息,進(jìn)一步合理確定地址切分位置,提高地址分詞的有效性。本申請(qǐng)?jiān)谶M(jìn)行中文地址分詞時(shí),僅僅使用地址自身的信息,無(wú)需額外建立規(guī)模龐大的地址特征詞詞典,也無(wú)需標(biāo)注大量用于訓(xùn)練模型的地址數(shù)據(jù),從而能夠有效解決先驗(yàn)知識(shí)要求多和人工標(biāo)注成本高的問(wèn)題。