一種基于AI的對象化屬性文本自動分類方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN202110295365.1 申請日 -
公開(公告)號 CN112966111A 公開(公告)日 2021-06-15
申請公布號 CN112966111A 申請公布日 2021-06-15
分類號 G06F16/35(2019.01)I;G06F16/951(2019.01)I;G06F40/126(2020.01)I;G06K9/62(2006.01)I;G06N20/00(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 王建偉 申請(專利權(quán))人 北京星漢博納醫(yī)藥科技有限公司
代理機(jī)構(gòu) 上海氦閃專利代理事務(wù)所(普通合伙) 代理人 李明;袁媛
地址 101312北京市順義區(qū)經(jīng)濟(jì)核心區(qū)安祥街10號306室
法律狀態(tài) -

摘要

摘要 本發(fā)明屬于數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是一種基于AI的對象化屬性文本自動分類方法及系統(tǒng),包括分類方法,所述分類方法的核心步驟如下:建立字符編碼庫,把歷史做過入庫的所有文本數(shù)據(jù)進(jìn)行字符化分解,單個字符在庫中做唯一數(shù)字編號,編號規(guī)則,使用整數(shù)做自增編號;標(biāo)準(zhǔn)屬性數(shù)據(jù)預(yù)處理,提取已入庫的標(biāo)準(zhǔn)數(shù)據(jù),作為待訓(xùn)練數(shù)據(jù),字符串長度限制為60個漢字字符,如:藥品通用名、藥品規(guī)格、藥品生產(chǎn)企業(yè)、批準(zhǔn)文號等,能清晰表達(dá)數(shù)據(jù)屬性特征的字段。通過本發(fā)明可以快速判斷一段數(shù)據(jù)描述的主體屬性類別,然后判斷屬性類別是否與主體設(shè)計一致;另外,也可以通過對多個近鄰數(shù)據(jù)進(jìn)行屬性分類判斷,在網(wǎng)頁中定位主體描述信息位置。