一種基于AI的對象化屬性文本自動分類方法及系統(tǒng)
基本信息
申請?zhí)?/td> | CN202110295365.1 | 申請日 | - |
公開(公告)號 | CN112966111A | 公開(公告)日 | 2021-06-15 |
申請公布號 | CN112966111A | 申請公布日 | 2021-06-15 |
分類號 | G06F16/35(2019.01)I;G06F16/951(2019.01)I;G06F40/126(2020.01)I;G06K9/62(2006.01)I;G06N20/00(2019.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 王建偉 | 申請(專利權(quán))人 | 北京星漢博納醫(yī)藥科技有限公司 |
代理機(jī)構(gòu) | 上海氦閃專利代理事務(wù)所(普通合伙) | 代理人 | 李明;袁媛 |
地址 | 101312北京市順義區(qū)經(jīng)濟(jì)核心區(qū)安祥街10號306室 | ||
法律狀態(tài) | - |
摘要
摘要 | 本發(fā)明屬于數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是一種基于AI的對象化屬性文本自動分類方法及系統(tǒng),包括分類方法,所述分類方法的核心步驟如下:建立字符編碼庫,把歷史做過入庫的所有文本數(shù)據(jù)進(jìn)行字符化分解,單個字符在庫中做唯一數(shù)字編號,編號規(guī)則,使用整數(shù)做自增編號;標(biāo)準(zhǔn)屬性數(shù)據(jù)預(yù)處理,提取已入庫的標(biāo)準(zhǔn)數(shù)據(jù),作為待訓(xùn)練數(shù)據(jù),字符串長度限制為60個漢字字符,如:藥品通用名、藥品規(guī)格、藥品生產(chǎn)企業(yè)、批準(zhǔn)文號等,能清晰表達(dá)數(shù)據(jù)屬性特征的字段。通過本發(fā)明可以快速判斷一段數(shù)據(jù)描述的主體屬性類別,然后判斷屬性類別是否與主體設(shè)計一致;另外,也可以通過對多個近鄰數(shù)據(jù)進(jìn)行屬性分類判斷,在網(wǎng)頁中定位主體描述信息位置。 |
