免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

AI+OCR賦能古彝文數(shù)字化—讓經(jīng)典重新跳動(dòng)-創(chuàng)新互聯(lián)

1?? 彝文與古彝文概況

文化是一個(gè)民族社會(huì)歷史發(fā)展到一定程度的產(chǎn)物,代表著文明發(fā)展的程度,而文字是文化的一種載體,文字的出現(xiàn)是社會(huì)進(jìn)入文明階段的重要標(biāo)志之一,其生動(dòng)記錄著一個(gè)民族的智慧成果,深刻反映著一個(gè)民族的發(fā)展歷史,集中體現(xiàn)這一個(gè)民族的文化。

創(chuàng)新互聯(lián)公司2013年成立,先為杭錦等服務(wù)建站,杭錦等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為杭錦企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。

中國(guó)遠(yuǎn)古時(shí)代的彝族,是相當(dāng)龐大的部落族群,其生息的區(qū)域,從西部、西南部往中原地區(qū)延伸到東海之濱,以刻劃文字和十月太陽(yáng)歷為標(biāo)志,可追溯達(dá)萬(wàn)年歷史的古彝人,對(duì)世界本源、人類發(fā)展史的認(rèn)識(shí),都達(dá)到了極高的程度,中國(guó)的文明史時(shí)序,由此向前推進(jìn)了一大步。

古彝文字義對(duì)照?qǐng)D(網(wǎng)絡(luò)資料+邵文苑供圖)

邵文苑:古彝文數(shù)字化項(xiàng)目發(fā)起人,上海大學(xué)社會(huì)學(xué)院人類學(xué)民俗學(xué)研究所講師

彝文是彝族先民在長(zhǎng)期的生產(chǎn)、生活實(shí)踐中長(zhǎng)期孕育、逐步提煉的文化產(chǎn)物,在漫長(zhǎng)的歷史發(fā)展之中薪火相傳,生生不息。而古彝文指的是在民間流通使用的原生態(tài)彝文,根據(jù)《滇川黔桂彝文字集》,這些文字多達(dá)87046字。彝文起源于何時(shí),尚未有官方的定論,有學(xué)者認(rèn)為,原始古彝文的創(chuàng)制和出現(xiàn)時(shí)間大致可推算為7000—10000年或以上。

以國(guó)內(nèi)外相關(guān)考古研究與學(xué)術(shù)研究成果為參照,以世界古文字珍稀遺產(chǎn)評(píng)鑒體系為依據(jù)來評(píng)價(jià)古彝文:

  • 文字生命力:古彝文出現(xiàn)時(shí)間大致可推斷為七千到一萬(wàn)年或以上,彝文經(jīng)過漫長(zhǎng)的歲月洗禮仍保留著大量的原生性特征;

  • 文字影響力:中國(guó)29個(gè)省市自治區(qū)都發(fā)現(xiàn)了古彝文刻劃符號(hào),具有極大影響力;

  • 文字文化力:古彝文文獻(xiàn)數(shù)量較多、體量較大、底蘊(yùn)深厚、內(nèi)容豐富、體制完善而成熟;

  • 文字傳承力:彝族人口眾多,生活地域廣袤,有深厚的文化地域,為古彝文的傳播提供了廣泛而穩(wěn)定的群眾基礎(chǔ)。

綜上所述,古彝文中蘊(yùn)藏著彝族數(shù)千年?duì)N爛文明成果,是中華民族傳統(tǒng)文化的重要組成部分,具有鮮明的民族個(gè)性和頑強(qiáng)的生命力,古彝文是彝族、中華民族乃至世界的文化瑰寶,建立古彝文OCR識(shí)別模型,可以很好地完成古彝文文獻(xiàn)的識(shí)別預(yù)處理操作,縮短古文典籍研究周期。對(duì)古彝文的數(shù)字化保護(hù)有助于理解尚未被翻譯成漢文、用字尚未規(guī)范化的古籍,更深層、透徹地作用于傳統(tǒng)文化保護(hù)。

2?? 古彝文數(shù)字化的重難點(diǎn)分析 2.1、古彝文典籍殘缺難以識(shí)別

彝文的傳承一直以手抄的形式為主,由族中的畢摩代代相傳,由于戰(zhàn)火與自然風(fēng)蝕的洗禮,很多彝族文獻(xiàn)遭到破壞和流失,存在缺失、污漬、筆墨污染、模糊、印章噪聲干擾,目前, 從各地收藏單位收集到彝文古籍文獻(xiàn)來看,紙質(zhì)文件存在泛黃變脆,甚至出現(xiàn)殘邊、蟲蛀等損毀問題; 一些碑刻、木刻的古彝文也由于長(zhǎng)期的侵蝕,字跡出現(xiàn)了模糊, 腐蝕等情況,這對(duì)古彝文典籍修復(fù)、文本檢測(cè)、文字識(shí)別帶來極大困難。

畢節(jié)市彝文文獻(xiàn)翻譯研究中心展示古籍修復(fù)原件(陳宗玉供圖)

📔傳統(tǒng)的文字圖像修復(fù)和識(shí)別📔,專業(yè)研究人員是通過語(yǔ)境信息和感知信息進(jìn)行,即利用圖像周圍的像素以及綜合標(biāo)準(zhǔn)文字中的各個(gè)特征要素來完成字符推演,而計(jì)算機(jī)很難具備人的語(yǔ)境信息,且古彝文沒有標(biāo)準(zhǔn)文字庫(kù)讓計(jì)算機(jī)參照學(xué)習(xí)。

2.2、缺乏成熟的古彝文訓(xùn)練樣本集

建立一個(gè)古彝文樣本庫(kù)是古彝文識(shí)別成功的關(guān)鍵因素,直接決定識(shí)別的效果,文字的認(rèn)知需要很多的背景知識(shí),這些是人類在一定環(huán)境中長(zhǎng)期積累形成,很難系統(tǒng)地加以描述和組織,當(dāng)前對(duì)古彝文的研究主要集中在對(duì)古彝文文獻(xiàn)的整理上,再加上彝文字沒有被數(shù)字化,也沒有預(yù)留的Unicode編碼區(qū)段,缺乏成熟可用的古彝文樣本庫(kù)和語(yǔ)料庫(kù),故常規(guī)OCR識(shí)別方法高度依賴人工,幾乎需要專業(yè)人員逐字標(biāo)注,導(dǎo)致古籍?dāng)?shù)字化無(wú)法形成規(guī)模效應(yīng),總體進(jìn)程緩慢。

畢節(jié)市彝文文獻(xiàn)翻譯研究中心展示漢譯書稿(邵文苑供圖)

在🎓人才方面🎓,具備古彝文語(yǔ)言專業(yè)知識(shí)的計(jì)算機(jī)技術(shù)人員極度缺乏,計(jì)算機(jī)技術(shù)相對(duì)薄弱的文獻(xiàn)語(yǔ)言知識(shí)領(lǐng)域的專家與缺乏文獻(xiàn)語(yǔ)言專業(yè)知識(shí)的計(jì)算機(jī)技術(shù)領(lǐng)域?qū)<覂烧咧g不能進(jìn)行完美的溝通合作,難以突破技術(shù)層面以及知識(shí)層面的重重難題,更遑論少數(shù)民族語(yǔ)料庫(kù)的建設(shè),這不僅對(duì)于文獻(xiàn)語(yǔ)言知識(shí)領(lǐng)域?qū)<矣兄嗟囊螅瑢?duì)于計(jì)算機(jī)專業(yè)技術(shù)領(lǐng)域?qū)<腋浅錆M挑戰(zhàn)。

2.3、古彝文字體多變 筆畫復(fù)雜

古彝文典籍時(shí)常出現(xiàn)加字、替字、整句倒置、文字方向不統(tǒng)一等現(xiàn)象,更是給文字定位造成挑戰(zhàn),再加上古彝文從未經(jīng)過統(tǒng)一,不僅異體字(兩個(gè)或多個(gè)視覺上完全不同的字)很多,還存在大量的“變體字”,即各個(gè)地方的布摩為防止敵方破譯其經(jīng)書而故意在現(xiàn)有字形上增加或減少一兩個(gè)筆畫產(chǎn)生的。比如:

表示“種類”的彝文字的四個(gè)變體(邵文苑供圖)

這樣的變體字大量存在,在彝文已經(jīng)相對(duì)規(guī)范的漢譯本中就有15%的變體字,原稿中就更多了,古彝文每個(gè)字的異體寫法少則兩三個(gè),多則幾十種,除此以外,彝文還存在一些漢文所沒有的筆畫,比如橫飄、橫回交,有些字在視覺上無(wú)甚差異,但實(shí)際上卻是意義讀音完全不同的兩個(gè)字:

兩個(gè)形似、但音義完全不同的彝文字(分別為“酒”、“儀禮”,邵文苑供圖)

這些筆畫相近的字符不僅給OCR識(shí)別模型的建立造成困難,而對(duì)于參與校注的初學(xué)者來說也是一大阻礙。

3?? AI + OCR = 古彝文典籍?dāng)?shù)字化 3.1、OCR識(shí)別——古彝文典籍?dāng)?shù)字化的核心技術(shù)
古彝文典籍?dāng)?shù)字化可以將古籍內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)可處理的數(shù)字,以達(dá)到存儲(chǔ)、檢索、傳遞、再生、利用等目的,并且可以進(jìn)行內(nèi)容檢索,快速下載打印和復(fù)制還原,也可以提供印刷出版或制作電子版圖書,通過網(wǎng)絡(luò)還能實(shí)現(xiàn)遠(yuǎn)程傳送、專題展覽,打破地域性資源的空間和時(shí)間的限制,被大限度地使用,從而實(shí)現(xiàn)“資源共享”。

古彝文典籍?dāng)?shù)字化的價(jià)值并不止步于學(xué)術(shù)研究,隨著我國(guó)小康社會(huì)的全面建成,人們對(duì)精神文化關(guān)注度日益提升,以民俗為主題的現(xiàn)代文藝創(chuàng)作、娛樂活動(dòng)讓傳統(tǒng)文化煥發(fā)新的生機(jī)。

光學(xué)字符識(shí)別OCR(Optical Character Recognition)是對(duì)圖片中所包含的文字圖像自動(dòng)識(shí)別并輸出為字符編碼的計(jì)算機(jī)技術(shù),包括:版面分析、圖像分割、文本檢測(cè)、文字識(shí)別等技術(shù)過程。古籍?dāng)?shù)字化嘗試由來已久,但古籍文字字類多、字體多樣,外加流傳過程中出現(xiàn)的各類損壞難度大、成本高。OCR是古籍?dāng)?shù)字化的核心技術(shù),是實(shí)現(xiàn)古籍?dāng)?shù)據(jù)庫(kù)檢索、文本挖掘、知識(shí)發(fā)現(xiàn)以及網(wǎng)絡(luò)傳播的前提和基礎(chǔ)。

先進(jìn)的OCR識(shí)別技術(shù)可以提供很高的并發(fā)處理能力,針對(duì)大量古籍圖像,快速輸出結(jié)果文件,保證研究進(jìn)度,在保證古籍識(shí)別準(zhǔn)確率能夠達(dá)到較極高的水平的同時(shí),降低后期校對(duì)的人工投入,OCR識(shí)別核心技術(shù)主要由以下幾個(gè)部分組成:

  1. 🚲圖像預(yù)處理:主要包括二值化,噪聲去除,傾斜較正,古文字常見的載體——龜殼和青銅器的表面都會(huì)不同程度地存在彎曲、反光、凹凸不平的情況,古彝文典籍存在缺失、污漬、筆墨污染、模糊等噪聲干擾,首先要將拍攝到的圖片素材在技術(shù)上進(jìn)行“拉平”等矯正處理,并做好對(duì)于陰影、噪點(diǎn)的處理;

  1. 🚗版面分析、字符分割:將文檔圖片分段落,分行,然后將每行的彝文字符單獨(dú)提取出來,切分是否準(zhǔn)確對(duì)于文字特征提取和分類識(shí)別將最終影響識(shí)別結(jié)果;

  1. 🚄特征提取:古彝文字體多變 筆畫復(fù)雜的問題,導(dǎo)致很多字只有一筆一劃的差別,存在許多相似字、變體字,這對(duì)描述字符特征提出了更高的要求——系統(tǒng)必須使得兩個(gè)相似字的類內(nèi)差距盡可能的小,類間差距盡可能的大。

  1. 🚀字符識(shí)別:根據(jù)提取的特征識(shí)別字符。常用的算法有模板匹配算法、支持向量機(jī)、貝葉斯分類算法和人工神經(jīng)網(wǎng)絡(luò)。

3.2、四字節(jié)編碼系統(tǒng)——古彝文典籍?dāng)?shù)字化的堅(jiān)實(shí)基石

上海大學(xué)彝文研究員研制的一種四字節(jié)編碼系統(tǒng),理論上可描述四省區(qū)所有異體字、變體字之間的細(xì)微差異,為每一個(gè)彝文字分配一個(gè)編碼,好像每個(gè)人都有獨(dú)一無(wú)二的身份證號(hào)那樣。在此基礎(chǔ)上建立的數(shù)據(jù)庫(kù),能較容易地找出誤用字和混用字,而且輸出平臺(tái)保留了原稿與編碼的聯(lián)系,可以方便地定位某位繕寫員的書法,為將來開發(fā)多樣化的字體做準(zhǔn)備。

這種四字節(jié)的編碼,可以描述每個(gè)變體和形近字符之間的細(xì)微差別,由此建立便于機(jī)器學(xué)習(xí)的數(shù)據(jù)樣本。合合信息技術(shù)研發(fā)團(tuán)隊(duì)吸取上海大學(xué)古彝文研究專家及其所在院系深厚的人文社科學(xué)術(shù)底蘊(yùn),以及前期積累的編碼工作成果,準(zhǔn)確掌握文字研究方面的痛點(diǎn),細(xì)化目標(biāo)拆解,建立更精準(zhǔn)、更符合研究需求的彝文古籍電子數(shù)據(jù)庫(kù)。

合合信息攜手上海大學(xué)推進(jìn)的“原生態(tài)古彝文”研究項(xiàng)目根據(jù)四字節(jié)編碼系統(tǒng)標(biāo)注異體字、變體字、誤用字和混用字,并由此精確建立彝文古籍電子數(shù)據(jù)庫(kù)的做法,在古彝文研究領(lǐng)域?qū)儆谑讋?chuàng)。

3.3、合合信息AI智能文字識(shí)別技術(shù)——古彝文典籍?dāng)?shù)字化的萬(wàn)能鑰匙

合合信息將基于“AI+OCR”融合下的智能文字識(shí)別技術(shù),解決古彝文識(shí)別的版式檢測(cè)、圖像處理和文字識(shí)別的難題,其與上海大學(xué)共同研究的《西南彝志》共計(jì)26卷,有“彝族歷史文化的百科全書”之譽(yù)。

智能文字識(shí)別技術(shù)主要包含了智能圖像處理、基于深度學(xué)習(xí)的復(fù)雜場(chǎng)景文字識(shí)別、自然語(yǔ)言處理三個(gè)核心技術(shù)層。就古文的識(shí)別而言,通常會(huì)涉及到行業(yè)存在兩大典型難點(diǎn),一個(gè)是圖像的優(yōu)化處理,再者是古文字的識(shí)別。

智能文字識(shí)別技術(shù)是合合信息核心技術(shù)之一,主要由智能圖像處理、基于深度學(xué)習(xí)的復(fù)雜場(chǎng)景文字識(shí)別,自然語(yǔ)言處理(NLP)三大核心模塊組成。其中,智能圖像處理技術(shù)可對(duì)曲面、陰影、摩爾紋等文檔圖像進(jìn)行精準(zhǔn)的矯正處理,為接下來的文字信息提取、識(shí)別創(chuàng)造了良好的條件;復(fù)雜場(chǎng)景文字識(shí)別技術(shù)可適應(yīng)多語(yǔ)言、多版式、多樣式等復(fù)雜場(chǎng)景以進(jìn)行文字提取,并結(jié)合領(lǐng)先的NLP技術(shù),對(duì)識(shí)別出的結(jié)果進(jìn)行語(yǔ)義理解。

  1. ?針對(duì)圖像質(zhì)量差的問題,彝文古籍經(jīng)歷了數(shù)代傳承、戰(zhàn)火與自然風(fēng)蝕的洗禮,難免出現(xiàn)頁(yè)面殘缺、霉斑污漬、墨色深淺不一、字符間距和行距大小不一的情況。合合信息采用智能文字識(shí)別技術(shù)對(duì)圖像質(zhì)量進(jìn)行增強(qiáng),提升文字識(shí)別效率與準(zhǔn)確性。

  1. 🌟針對(duì)版式多樣的問題,漢文與彝文古籍的各類原稿的排版風(fēng)格都不統(tǒng)一,字符間距和行距有密有疏,彝文古籍雖然沒有大小字混排、雙列夾字的校注傳統(tǒng),但也時(shí)常出現(xiàn)加字、替字、整句倒置和文字方向不統(tǒng)一等現(xiàn)象。在過去的十幾年中,合合信息以智能文字識(shí)別技術(shù)為核心,在圖像的復(fù)雜版式識(shí)別、結(jié)構(gòu)化智能理解層面做了大量的研究,積累了大量經(jīng)驗(yàn),這為古彝文識(shí)別提供了相當(dāng)可靠的技術(shù)支持。

  1. 🏁針對(duì)異體眾多的問題,未經(jīng)整理規(guī)范的古彝文字符數(shù)高達(dá)了87000余個(gè),比康熙字典的字?jǐn)?shù)還多,給識(shí)別帶來極大困難。合合信息智能文字識(shí)別技術(shù)采用AI模型深度訓(xùn)練學(xué)習(xí)深層語(yǔ)言特征,有助于應(yīng)對(duì)文字識(shí)別中“理解、認(rèn)知”層面的難題。

  1. 💫針對(duì)手寫識(shí)別難的問題,古彝文目前沒有公開數(shù)據(jù)集,而通曉此種文字的人越來越少,導(dǎo)致標(biāo)注工作量大而人手少,數(shù)據(jù)量嚴(yán)重不足,合合信息智能引入AI技術(shù)構(gòu)建模型,彌補(bǔ)本項(xiàng)目訓(xùn)練樣本不足。

4?? 智能文字識(shí)別技術(shù)——合合信息讓經(jīng)典重新跳動(dòng)

古文的研究,是合合信息用智能文字識(shí)別技術(shù)促進(jìn)中華文化傳承、文化保護(hù)的社會(huì)責(zé)任體現(xiàn),這也對(duì)提高技術(shù)整體識(shí)別率,賦能更廣泛的大眾應(yīng)用非常有價(jià)值。不止在古彝文,此前合合信息便在甲骨文、金文領(lǐng)域進(jìn)行研究,并基于“AI+OCR”融合下的智能文字識(shí)別技術(shù),在解決古籍版式檢測(cè)、圖像處理和文字識(shí)別難題上取得了亮眼成果。

在2022年世界人工智能大會(huì)上,合合信息將智能文字識(shí)別技術(shù)應(yīng)用到了一篇鐫刻在西周青銅鼎面的的鐘鼎文(金文)識(shí)別上,可謂難度頗高,在沒有人工干預(yù)的狀態(tài)下,鐘鼎文從內(nèi)凹狀態(tài)被拉平,并被轉(zhuǎn)譯成簡(jiǎn)體字,“克曰穆朕文且?guī)熑A父悤譲氒心寧?kù)o于猷淑哲氒”等原本連在一起的復(fù)雜語(yǔ)句,也經(jīng)過“AI斷句”功能自動(dòng)處理后被區(qū)分開來,方便大眾理解。

在鐘鼎文的處理過程中,合合信息重點(diǎn)展示了智能文字識(shí)別技術(shù)的應(yīng)用,通過以“彎曲矯正”為代表的智能圖像處理,基于深度學(xué)習(xí)的復(fù)雜場(chǎng)景文字識(shí)別,自然語(yǔ)言處理(NLP)三大核心技術(shù)層,向曲面、模糊、陰影、非常規(guī)文字影響下的識(shí)別難題發(fā)起挑戰(zhàn),精準(zhǔn)實(shí)現(xiàn)復(fù)雜場(chǎng)景中的多語(yǔ)言識(shí)別。

一些參觀者在展區(qū)還使用合合信息旗下產(chǎn)品“掃描全能王app”,用“拍圖識(shí)字”功能一鍵掃描識(shí)別豎排繁體古籍《桃花源記》。面對(duì)破損、皺褶的古籍,該功能通過圖像文字效果增強(qiáng),進(jìn)一步將古籍內(nèi)容提取出來,賦予更多人清晰、平整的古籍閱讀體驗(yàn)。

不僅如此,合合信息專注于智能文字識(shí)別、圖像處理、自然語(yǔ)言處理(NLP)、知識(shí)圖譜、大數(shù)據(jù)挖掘等技術(shù)。基于自主研發(fā)的領(lǐng)先的智能文字識(shí)別及商業(yè)大數(shù)據(jù)核心技術(shù),還為全球C端用戶和多元行業(yè)B端客戶提供身份證、票據(jù)數(shù)字化、PS篡改檢測(cè)、報(bào)表OCR識(shí)別、切邊增強(qiáng)、曲面矯正、陰影處理、印章檢測(cè)等智能圖像處理產(chǎn)品及服務(wù)。

合合信息還將重點(diǎn)關(guān)注自然語(yǔ)言處理領(lǐng)域,不斷精進(jìn)AI“讀懂”古文的能力,去實(shí)現(xiàn)更多理解層面的事情,以此更好地促進(jìn)學(xué)術(shù)研究效率提升,并通過降低古文理解門檻,在文旅、文創(chuàng)領(lǐng)域觸達(dá)更廣泛的社會(huì)群體,讓傳統(tǒng)文化煥發(fā)新的生機(jī)。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購(gòu),新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧

文章標(biāo)題:AI+OCR賦能古彝文數(shù)字化—讓經(jīng)典重新跳動(dòng)-創(chuàng)新互聯(lián)
標(biāo)題網(wǎng)址:http://m.newbst.com/article22/hjdjc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供手機(jī)網(wǎng)站建設(shè)全網(wǎng)營(yíng)銷推廣自適應(yīng)網(wǎng)站微信公眾號(hào)網(wǎng)站排名品牌網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

綿陽(yáng)服務(wù)器托管