舊報紙不用再封塵了！新算法可從歷史文件中搜索并提取信息

2021-10-20 00:02:22 前瞻網(wǎng)

評論

舊報紙給我們提供了一個了解過去的窗口，紐約州立大學(xué)布法羅分校的研究員開發(fā)了一種新算法，試圖將這些歷史文件變成有用的、可搜索的數(shù)據(jù)。

這種算法可以從光學(xué)字符識別（OCR）產(chǎn)生的結(jié)果中找到人名并按重要性排序，光學(xué)字符識別是將掃描文件轉(zhuǎn)化為文本的計算機(jī)化方法，通常比較雜亂。相關(guān)算法研究發(fā)表在《決策支持系統(tǒng)》上。

當(dāng)運行光學(xué)字符識別軟件時，很多時候文本會出現(xiàn)亂碼。對于舊報紙、書籍和雜志，問題可能來自于油墨質(zhì)量差、皺褶或撕裂的紙張，甚至是軟件沒有想到的不尋常頁面布局。

為了開發(fā)該算法，研究人員與紐約公共圖書館（NYPL）合作，分析了《紐約太陽報》在1894年11月和12月期間發(fā)表的14000多篇文章。紐約公共圖書館已經(jīng)掃描了20多萬頁報紙。

研究人員的算法根據(jù)一些屬性對人名的重要性進(jìn)行排名，這些屬性包括名字的上下文、名字前面的標(biāo)題、文章的長度以及名字在文章中被提及的頻率。該算法僅從文本中學(xué)習(xí)這些屬性——它并不依賴維基百科或其他知識庫等外部信息來源。

但由于光學(xué)字符識別文本是亂碼，它無法確定這些屬性對人名的排名有效性多高。因此，研究人員使用統(tǒng)計措施對許多數(shù)據(jù)屬性進(jìn)行建模，這有助于提供所需的姓名排名。

研究人員使用兩組歷史文章來測試他們的算法。一套是由光學(xué)字符識別軟件產(chǎn)生的原始文本，另一套是由紐約市的學(xué)童手動清理過的，他們用這些文章來寫當(dāng)時當(dāng)?shù)刂宋锏膫饔洝?/p>

結(jié)果發(fā)現(xiàn)，當(dāng)與清理過的故事版本相比，即使從嘈雜的光學(xué)字符識別文本中，排名算法也能對人名進(jìn)行高度精確的排序。

研究人員認(rèn)為，這項研究對發(fā)現(xiàn)整個歷史上的重要人物有廣泛的影響。研究人員還表示，最近在南北戰(zhàn)爭時期的非裔美國人文獻(xiàn)上使用了這種技術(shù)，以了解更多關(guān)于奴隸制時代的重要人物。今后將擴(kuò)大這項技術(shù)，以檢查人與人之間的關(guān)系，并建立起過去的社會網(wǎng)絡(luò)。

題為PNRank: Unsupervised ranking of person name entities from noisy OCR text的相關(guān)研究論文發(fā)表在《決策支持系統(tǒng)》上。

前瞻經(jīng)濟(jì)學(xué)人APP資訊組

論文原文：

https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub

標(biāo)簽：提取搜索中搜文件

一级毛片成人免费看免费不卡_久久亚洲人成网站_免费播放美女一级毛片_欧美成人在线视频

舊報紙不用再封塵了！新算法可從歷史文件中搜索并提取信息

今日熱點

熱點排行

最近更新