利用語義特征的科技創(chuàng)新領域中文關鍵短語抽取方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN202110600989.X | 申請日 | - |
公開(公告)號 | CN113221559A | 公開(公告)日 | 2021-08-06 |
申請公布號 | CN113221559A | 申請公布日 | 2021-08-06 |
分類號 | G06F40/289;G06F40/30;G06F40/211;G06F40/216;G06K9/62;G06F16/335;G06F16/36 | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 莊越挺;宗暢;陳澤群;魯偉明;邵健 | 申請(專利權)人 | 杭州量知數(shù)據(jù)科技有限公司 |
代理機構 | 杭州求是專利事務所有限公司 | 代理人 | 傅朝棟;張法高 |
地址 | 310058 浙江省杭州市西湖區(qū)余杭塘路866號 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了一種利用語義特征的科技創(chuàng)新領域中文關鍵短語抽取方法及系統(tǒng)。本發(fā)明通過挖掘中文科技創(chuàng)新文檔語料特征,構建出中文停用詞及停用模式庫,實現(xiàn)對無效信息的高性能過濾;此外借助領域專家標注對各類關鍵短語抽取算法進行量化評估分析,從而選用更加適合領域認知的算法模型,并利用多種統(tǒng)計規(guī)則進行過濾以提升短語抽取性能;進一步利用文檔的結構特點,對文檔的主題語義進行向量空間嵌入表示,并綜合利用所抽取短語與文檔主題的語義相似度,和短語語義重要程度進行計算與排名,完成對關鍵短語的進一步篩選。該方法可支撐多種下游任務和應用,包括科技創(chuàng)新領域知識圖譜構建、科技創(chuàng)新文檔語義檢索、科技創(chuàng)新實體精準搜索等場景。 |
