一種多段落文本的特征抽取系統(tǒng)及方法

基本信息

申請?zhí)?/td> CN201710287337.9 申請日 -
公開(公告)號 CN107122350A 公開(公告)日 2017-09-01
申請公布號 CN107122350A 申請公布日 2017-09-01
分類號 G06F17/27(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 許延祥;王飛劍;劉宗福;周東紅;黃世祥 申請(專利權)人 北京和利時數(shù)字技術有限公司
代理機構 北京細軟智谷知識產(chǎn)權代理有限責任公司 代理人 付登云
地址 100089 北京市海淀區(qū)西三環(huán)北路27號1區(qū)15號樓第11層西區(qū)1101室
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種多段落文本的特征抽取系統(tǒng)及方法,包括第一計算模塊、主控模塊、權重設置模塊、文本處理模塊、分詞器和第二計算模塊;所述第一計算模塊、權重設置模塊、文本處理模塊、分詞器和第二計算模塊均與主控模塊進行數(shù)據(jù)交互。本發(fā)明提供的技術方案通用、可行的來實現(xiàn)文本特征提取,并在文本特征提取過程中,能夠體現(xiàn)文本中不同段落的權重差異。