一種基于聚類算法的體系知識(shí)抽取方法
基本信息
申請(qǐng)?zhí)?/td> | CN202111526758.5 | 申請(qǐng)日 | - |
公開(公告)號(hào) | CN114297401A | 公開(公告)日 | 2022-04-08 |
申請(qǐng)公布號(hào) | CN114297401A | 申請(qǐng)公布日 | 2022-04-08 |
分類號(hào) | G06F16/36(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2022.01)I;G06F40/289(2020.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 徐振中;劉成偉;徐偉程;熊永豐;周琰;趙文;孫友良 | 申請(qǐng)(專利權(quán))人 | 中航機(jī)載系統(tǒng)共性技術(shù)有限公司 |
代理機(jī)構(gòu) | 南京源點(diǎn)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人 | 羅超;潘云峰 |
地址 | 225000江蘇省揚(yáng)州市廣陵區(qū)廣陵新城江蘇信息服務(wù)產(chǎn)業(yè)基地內(nèi)28號(hào)樓B棟11層 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明公開了體系知識(shí)抽取領(lǐng)域內(nèi)的一種基于聚類算法的體系知識(shí)抽取方法,包括以下步驟:S1:對(duì)評(píng)論意見數(shù)據(jù)進(jìn)行清洗處理;S2:對(duì)經(jīng)清洗后的評(píng)論意見數(shù)據(jù)進(jìn)行分詞及去除停用詞處理,獲得若干文本型詞語(yǔ);S3:對(duì)若干文本型詞語(yǔ)進(jìn)行文本向量化處理,對(duì)應(yīng)獲得若干數(shù)值型詞語(yǔ);S4:計(jì)算各數(shù)值型詞語(yǔ)兩兩之間的距離度量;S5:采用聚類算法對(duì)數(shù)值型詞語(yǔ)進(jìn)行聚類;S6:通過(guò)輪廓系數(shù)判斷聚類效果,若輪廓系數(shù)大于設(shè)定值則輸出聚類結(jié)果,若輪廓系數(shù)不大于設(shè)定值則重新進(jìn)行聚類;S7:將聚類結(jié)果中的各數(shù)值型詞語(yǔ)對(duì)應(yīng)轉(zhuǎn)化為文本型詞語(yǔ)。該抽取方法可以方便技術(shù)人員對(duì)評(píng)論意見進(jìn)行識(shí)別解釋,獲取體系文件知識(shí)。 |
