一種文件關(guān)聯(lián)方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201610832684.0 申請(qǐng)日 -
公開(公告)號(hào) CN107844493B 公開(公告)日 2018-03-27
申請(qǐng)公布號(hào) CN107844493B 申請(qǐng)公布日 2018-03-27
分類號(hào) G06F16/33(2019.01)I;G06F40/30(2020.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 米維聰;席強(qiáng)輝;徐超 申請(qǐng)(專利權(quán))人 博彥泓智科技(上海)有限公司
代理機(jī)構(gòu) 上海光華專利事務(wù)所(普通合伙) 代理人 博彥泓智科技(上海)有限公司
地址 200335上海市長寧區(qū)金鐘路968號(hào)3號(hào)樓608室(實(shí)際樓層5層)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供一種文件關(guān)聯(lián)方法及系統(tǒng),該方法包括:接收一原文件;提取原文件的標(biāo)題,將標(biāo)題相似度達(dá)到標(biāo)題相似度閾值的各標(biāo)題存儲(chǔ)條目所對(duì)應(yīng)的文件作為原文件的標(biāo)題近似文件;提取原文件的大綱,將大綱綜合相似度達(dá)到大綱相似度閾值的各文件大綱所對(duì)應(yīng)的文件作為原文件的大綱近似文件;提取原文件的正文,將正文綜合相似度達(dá)到正文相似度閾值的各文件正文所對(duì)應(yīng)的文件作為原文件的正文近似文件;將標(biāo)題近似文件、大綱近似文件、或/和正文近似文件的標(biāo)題相似度、大綱綜合相似度和正文綜合相似度根據(jù)預(yù)設(shè)權(quán)值進(jìn)行加權(quán)處理,獲得各近似文件的綜合近似度。本發(fā)明運(yùn)算復(fù)雜度低,節(jié)約了比對(duì)時(shí)間和成本;對(duì)比運(yùn)算邏輯緊密,提高了對(duì)比結(jié)果的準(zhǔn)確度。??