一種標(biāo)簽的提取方法、裝置、設(shè)備及可讀存儲介質(zhì)
基本信息
申請?zhí)?/td> | 2020111462565 | 申請日 | - |
公開(公告)號 | CN112256832A | 公開(公告)日 | 2021-01-22 |
申請公布號 | CN112256832A | 申請公布日 | 2021-01-22 |
分類號 | G06F16/33(2019.01)I;G06F16/35(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 陳揚;陸惠國;陸爭輝;顧文斌;祝志偉 | 申請(專利權(quán))人 | 上海恒生聚源數(shù)據(jù)服務(wù)有限公司 |
代理機構(gòu) | 北京集佳知識產(chǎn)權(quán)代理有限公司 | 代理人 | 劉穎 |
地址 | 200127上海市浦東新區(qū)峨山路91弄61號7樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請實施例提供了一種標(biāo)簽的提取方法、裝置、設(shè)備及可讀存儲介質(zhì),對獲取的文本進行處理,得到候選詞集合。依據(jù)參數(shù),計算候選詞的初始權(quán)重值,依據(jù)初始權(quán)重值和預(yù)設(shè)的權(quán)重迭代算法,計算候選詞集合中的詞的第一權(quán)重值。依據(jù)第一權(quán)重值以及調(diào)整系數(shù),確定候選詞集合中的詞的第二權(quán)重值,依據(jù)第二權(quán)重值,從候選詞集合中選擇文本的標(biāo)簽。目標(biāo)候選詞的參數(shù)至少包括目標(biāo)候選詞的詞頻、目標(biāo)候選詞的詞長和/或目標(biāo)候選詞的詞跨度,目標(biāo)候選詞的調(diào)整系數(shù)包括第一調(diào)整系數(shù)和/或第二調(diào)整系數(shù),可見,本方法結(jié)合了詞長、詞跨度和調(diào)整系數(shù),而非僅有詞頻,不僅能夠降低對于詞頻的依賴程度,更能從多個維度獲取權(quán)重,從而提高標(biāo)簽提取的準(zhǔn)確性。?? |
