一種基于無監(jiān)督學習的中文地址分詞方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN202210119464.9 | 申請日 | - |
公開(公告)號 | CN114154501A | 公開(公告)日 | 2022-03-08 |
申請公布號 | CN114154501A | 申請公布日 | 2022-03-08 |
分類號 | G06F40/289(2020.01)I;G06K9/62(2022.01)I | 分類 | 計算;推算;計數; |
發(fā)明人 | 辛穎梅;胡玉偉;江錫強;鄭雪原;魏剛;張家寶;楊孟金 | 申請(專利權)人 | 南京擎天科技有限公司 |
代理機構 | 北京弘權知識產權代理有限公司 | 代理人 | 逯長明;許偉群 |
地址 | 211800江蘇省南京市浦口區(qū)經濟開發(fā)區(qū)天浦路26號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請涉及地址分詞技術領域,提供一種基于無監(jiān)督學習的中文地址分詞方法及系統(tǒng),利用地址數據間的相關信息,即對于描述內容不同的地址含有全部或部分相同或相近的特征詞,以及特征詞會在地址數據中反復出現的特性,通過LDA主題模型自動挖掘出地址數據的候選特征詞;通過將地址數據切分成詞和字兩種形式,增強不同長度特征詞的挖掘能力;利用特征詞在地址要素內的詞位信息和詞頻信息,進一步合理確定地址切分位置,提高地址分詞的有效性。本申請在進行中文地址分詞時,僅僅使用地址自身的信息,無需額外建立規(guī)模龐大的地址特征詞詞典,也無需標注大量用于訓練模型的地址數據,從而能夠有效解決先驗知識要求多和人工標注成本高的問題。 |
