一種從文本中提取目標關鍵詞的方法

基本信息

申請?zhí)?/td> CN201910152460.9 申請日 -
公開(公告)號 CN109918657A 公開(公告)日 2019-06-21
申請公布號 CN109918657A 申請公布日 2019-06-21
分類號 G06F17/27(2006.01)I; G06F16/35(2019.01)I 分類 計算;推算;計數;
發(fā)明人 曾俊瑀; 張文斌; 賈顯伏; 喬詠田; 李德方 申請(專利權)人 云孚科技(北京)有限公司
代理機構 北京世譽鑫誠專利代理事務所(普通合伙) 代理人 孫國棟
地址 100085 北京市海淀區(qū)上地五街7號一層101A室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開的文本中提取目標關鍵詞的方法,涉及數據挖掘技術領域,利用基于統(tǒng)計學的規(guī)則分句技術,將文本分割為多個分句,利用語言技術平臺LTP對各個分句進行分詞,得到多個詞句,分別對各個詞句的詞性進行標注并獲取各個詞句之間的句法依存關系,選取標注為名詞的詞句,生成第一候選關鍵詞集合,分別計算第二候選關鍵詞集合中各個詞句在文本中的覆蓋率,并根據綜合分計算公式,計算第二候選關鍵詞集合中各個詞句的綜合分數,根據K?means算法及各個詞句在關鍵詞字典中的值,分別計算各個詞向量與選定的K個詞向量的距離,根據距離的大小,分別選擇與K個詞向量距離最近的詞向量,得到K個目標關鍵詞,提高了目標關鍵詞提取的準確率及效率。