一種標(biāo)簽的提取方法、裝置、設(shè)備及可讀存儲介質(zhì)

基本信息

申請?zhí)?/td> 2020111462565 申請日 -
公開(公告)號 CN112256832A 公開(公告)日 2021-01-22
申請公布號 CN112256832A 申請公布日 2021-01-22
分類號 G06F16/33(2019.01)I;G06F16/35(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 陳揚;陸惠國;陸爭輝;顧文斌;祝志偉 申請(專利權(quán))人 上海恒生聚源數(shù)據(jù)服務(wù)有限公司
代理機構(gòu) 北京集佳知識產(chǎn)權(quán)代理有限公司 代理人 劉穎
地址 200127上海市浦東新區(qū)峨山路91弄61號7樓
法律狀態(tài) -

摘要

摘要 本申請實施例提供了一種標(biāo)簽的提取方法、裝置、設(shè)備及可讀存儲介質(zhì),對獲取的文本進行處理,得到候選詞集合。依據(jù)參數(shù),計算候選詞的初始權(quán)重值,依據(jù)初始權(quán)重值和預(yù)設(shè)的權(quán)重迭代算法,計算候選詞集合中的詞的第一權(quán)重值。依據(jù)第一權(quán)重值以及調(diào)整系數(shù),確定候選詞集合中的詞的第二權(quán)重值,依據(jù)第二權(quán)重值,從候選詞集合中選擇文本的標(biāo)簽。目標(biāo)候選詞的參數(shù)至少包括目標(biāo)候選詞的詞頻、目標(biāo)候選詞的詞長和/或目標(biāo)候選詞的詞跨度,目標(biāo)候選詞的調(diào)整系數(shù)包括第一調(diào)整系數(shù)和/或第二調(diào)整系數(shù),可見,本方法結(jié)合了詞長、詞跨度和調(diào)整系數(shù),而非僅有詞頻,不僅能夠降低對于詞頻的依賴程度,更能從多個維度獲取權(quán)重,從而提高標(biāo)簽提取的準(zhǔn)確性。??