一種文本標注方法、裝置、設備及可讀存儲介質(zhì)
基本信息
申請?zhí)?/td> | CN202011233453.0 | 申請日 | - |
公開(公告)號 | CN112183035A | 公開(公告)日 | 2021-01-05 |
申請公布號 | CN112183035A | 申請公布日 | 2021-01-05 |
分類號 | G06F40/166(2020.01)I | 分類 | 計算;推算;計數(shù); |
發(fā)明人 | 左永忠;劉余海 | 申請(專利權)人 | 上海恒生聚源數(shù)據(jù)服務有限公司 |
代理機構 | 北京集佳知識產(chǎn)權代理有限公司 | 代理人 | 上海恒生聚源數(shù)據(jù)服務有限公司 |
地址 | 200127上海市浦東新區(qū)峨山路91弄61號7樓 | ||
法律狀態(tài) | - |
摘要
摘要 | 本申請實施例提供了一種文本標注方法、裝置、設備及可讀存儲介質(zhì),在待標注的文本頁的標題項中,確定表格的標題,從目標標題項中,按照排序的逆序查找滿足預設條件的標題項,將滿足預設條件的標題項中,排序在前的標題項作為上級標題,排序在后的標題項作為下級標題,預設條件包括:所述標題項之間不存在文本。依據(jù)上級標題和下級標題的區(qū)別特征,識別文本頁中的上級標題和下級標題。將識別出的各個標題指示的內(nèi)容進行分詞,得到各個標題的分詞結果,從預設的對應關系中,查詢目標分詞單元,將目標分詞單元對應的標注項,作為標題的標注結果。本方案確定各個標題的分級,因此不僅能夠自動對文本中的標題進行標注,還能夠保證標注結果的準確性。?? |
