一種面向企業(yè)信息的行業(yè)全息畫像構(gòu)建方法及系統(tǒng)

基本信息

申請(qǐng)?zhí)?/td> CN201610718328.6 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN106339806A 公開(kāi)(公告)日 2017-01-18
申請(qǐng)公布號(hào) CN106339806A 申請(qǐng)公布日 2017-01-18
分類號(hào) G06Q10/06(2012.01)I;G06F17/30(2006.01)I;G06F17/27(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 袁偉;柳歡;張建偉;蔡明;王娟;艾申彪;陳濤 申請(qǐng)(專利權(quán))人 北京創(chuàng)業(yè)公社數(shù)據(jù)科技有限公司
代理機(jī)構(gòu) 北京永創(chuàng)新實(shí)專利事務(wù)所 代理人 祗志潔
地址 100080 北京市海淀區(qū)中關(guān)村大街15號(hào)國(guó)際創(chuàng)客中心創(chuàng)業(yè)公社C24
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種面向企業(yè)信息的行業(yè)全息畫像構(gòu)建方法及系統(tǒng),屬于信息技術(shù)領(lǐng)域。本系統(tǒng)包括企業(yè)名稱抓取模塊、企業(yè)文本描述信息模塊、中文切詞模塊、詞頻統(tǒng)計(jì)模塊、有效詞集獲取模塊、有效行業(yè)詞集獲取模塊和企業(yè)行業(yè)全息畫像獲取模塊。本方法通過(guò)網(wǎng)絡(luò)抓取企業(yè)名稱,獲取每個(gè)企業(yè)的文本描述信息,對(duì)文本描述信息進(jìn)行切詞、剔除常用詞,得到有效詞集,計(jì)算有效詞與一級(jí)、二級(jí)行業(yè)國(guó)家標(biāo)準(zhǔn)名稱的相似度分?jǐn)?shù),剔除小于閾值的詞,對(duì)每個(gè)企業(yè),根據(jù)每類文本描述信息與相似度分?jǐn)?shù),計(jì)算企業(yè)所屬的一級(jí)、二級(jí)行業(yè),取對(duì)應(yīng)的有效行業(yè)詞集作為企業(yè)的行業(yè)全息畫像。本發(fā)明可大規(guī)??焖佾@取企業(yè)行業(yè)畫像信息,有效行業(yè)詞較人工標(biāo)注的詞更加全面、精準(zhǔn)。