一種面向企業(yè)信息的行業(yè)全息畫像構(gòu)建方法及系統(tǒng)
基本信息
申請(qǐng)?zhí)?/td> | CN201610718328.6 | 申請(qǐng)日 | - |
公開(kāi)(公告)號(hào) | CN106339806A | 公開(kāi)(公告)日 | 2017-01-18 |
申請(qǐng)公布號(hào) | CN106339806A | 申請(qǐng)公布日 | 2017-01-18 |
分類號(hào) | G06Q10/06(2012.01)I;G06F17/30(2006.01)I;G06F17/27(2006.01)I | 分類 | 計(jì)算;推算;計(jì)數(shù); |
發(fā)明人 | 袁偉;柳歡;張建偉;蔡明;王娟;艾申彪;陳濤 | 申請(qǐng)(專利權(quán))人 | 北京創(chuàng)業(yè)公社數(shù)據(jù)科技有限公司 |
代理機(jī)構(gòu) | 北京永創(chuàng)新實(shí)專利事務(wù)所 | 代理人 | 祗志潔 |
地址 | 100080 北京市海淀區(qū)中關(guān)村大街15號(hào)國(guó)際創(chuàng)客中心創(chuàng)業(yè)公社C24 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明提供了一種面向企業(yè)信息的行業(yè)全息畫像構(gòu)建方法及系統(tǒng),屬于信息技術(shù)領(lǐng)域。本系統(tǒng)包括企業(yè)名稱抓取模塊、企業(yè)文本描述信息模塊、中文切詞模塊、詞頻統(tǒng)計(jì)模塊、有效詞集獲取模塊、有效行業(yè)詞集獲取模塊和企業(yè)行業(yè)全息畫像獲取模塊。本方法通過(guò)網(wǎng)絡(luò)抓取企業(yè)名稱,獲取每個(gè)企業(yè)的文本描述信息,對(duì)文本描述信息進(jìn)行切詞、剔除常用詞,得到有效詞集,計(jì)算有效詞與一級(jí)、二級(jí)行業(yè)國(guó)家標(biāo)準(zhǔn)名稱的相似度分?jǐn)?shù),剔除小于閾值的詞,對(duì)每個(gè)企業(yè),根據(jù)每類文本描述信息與相似度分?jǐn)?shù),計(jì)算企業(yè)所屬的一級(jí)、二級(jí)行業(yè),取對(duì)應(yīng)的有效行業(yè)詞集作為企業(yè)的行業(yè)全息畫像。本發(fā)明可大規(guī)??焖佾@取企業(yè)行業(yè)畫像信息,有效行業(yè)詞較人工標(biāo)注的詞更加全面、精準(zhǔn)。 |
