一種基于無(wú)監(jiān)督學(xué)習(xí)的中文地址分詞方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN202210119464.9 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN114154501A | 公開(kāi)(公告)日 | 2022-03-08 |
申請(qǐng)公布號(hào) | CN114154501A | 申請(qǐng)公布日 | 2022-03-08 |
分類(lèi)號(hào) | G06F40/289(2020.01)I;G06K9/62(2022.01)I | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 辛穎梅;胡玉偉;江錫強(qiáng);鄭雪原;魏剛;張家寶;楊孟金 | 申請(qǐng)(專(zhuān)利權(quán))人 | 南京擎天科技有限公司 |
代理機(jī)構(gòu) | 北京弘權(quán)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 逯長(zhǎng)明;許偉群 |
地址 | 211800江蘇省南京市浦口區(qū)經(jīng)濟(jì)開(kāi)發(fā)區(qū)天浦路26號(hào) | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請(qǐng)涉及地址分詞技術(shù)領(lǐng)域,提供一種基于無(wú)監(jiān)督學(xué)習(xí)的中文地址分詞方法及系統(tǒng),利用地址數(shù)據(jù)間的相關(guān)信息,即對(duì)于描述內(nèi)容不同的地址含有全部或部分相同或相近的特征詞,以及特征詞會(huì)在地址數(shù)據(jù)中反復(fù)出現(xiàn)的特性,通過(guò)LDA主題模型自動(dòng)挖掘出地址數(shù)據(jù)的候選特征詞;通過(guò)將地址數(shù)據(jù)切分成詞和字兩種形式,增強(qiáng)不同長(zhǎng)度特征詞的挖掘能力;利用特征詞在地址要素內(nèi)的詞位信息和詞頻信息,進(jìn)一步合理確定地址切分位置,提高地址分詞的有效性。本申請(qǐng)?jiān)谶M(jìn)行中文地址分詞時(shí),僅僅使用地址自身的信息,無(wú)需額外建立規(guī)模龐大的地址特征詞詞典,也無(wú)需標(biāo)注大量用于訓(xùn)練模型的地址數(shù)據(jù),從而能夠有效解決先驗(yàn)知識(shí)要求多和人工標(biāo)注成本高的問(wèn)題。 |
