一種面向海量互聯(lián)網(wǎng)信息的文本語義建模方法

基本信息

申請(qǐng)?zhí)?/td> CN201610075760.8 申請(qǐng)日 -
公開(公告)號(hào) CN107038163A 公開(公告)日 2017-08-11
申請(qǐng)公布號(hào) CN107038163A 申請(qǐng)公布日 2017-08-11
分類號(hào) G06F17/30(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 李華康;鐘鑫;楊天楚;楊天若 申請(qǐng)(專利權(quán))人 常州普適信息科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 213014 江蘇省常州市新北區(qū)河海中路85號(hào)浙江大學(xué)常州工業(yè)技術(shù)研究院215
法律狀態(tài) -

摘要

摘要 本發(fā)明涉及一種互聯(lián)網(wǎng)語義模型發(fā)現(xiàn)方法,具體涉及一種基于海量互聯(lián)網(wǎng)信息的文本語義建模方法。本發(fā)明主要解決自媒體時(shí)代海量互聯(lián)網(wǎng)信息的不規(guī)則性、弱可信與弱可用性帶來的文本信息價(jià)值低、可用性不高等問題,從技術(shù)上構(gòu)建海量互聯(lián)網(wǎng)信息的文本語義模型并做系統(tǒng)實(shí)現(xiàn)。本發(fā)明結(jié)合一個(gè)分詞詞庫(kù)、一個(gè)詞性詞庫(kù)和一個(gè)標(biāo)準(zhǔn)句式庫(kù),對(duì)海量互聯(lián)網(wǎng)文本信息進(jìn)行分句、分詞并給出詞性標(biāo)注,采用短句窗位移的方法實(shí)現(xiàn)高覆蓋率和高精度的詞性路徑識(shí)別功能。同時(shí)本發(fā)明對(duì)詞性路徑進(jìn)行精細(xì)化的提取實(shí)現(xiàn)三元組模式識(shí)別,并利用機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)三元組模型的自反饋調(diào)節(jié)功能。本發(fā)明的以上兩個(gè)核心步驟克服了互聯(lián)網(wǎng)文本信息的不規(guī)則性和弱可信問題,還可以用在如情感分析、質(zhì)量分析的需要量化分析的應(yīng)用領(lǐng)域。