舊報紙給我們提供了一個了解過去的窗口,紐約州立大學布法羅分校的研究員開發了一種新算法,試圖將這些歷史文件變成有用的、可搜索的數據。
這種算法可以從光學字符識別(OCR)產生的結果中找到人名并按重要性排序,光學字符識別是將掃描文件轉化為文本的計算機化方法,通常比較雜亂。相關算法研究發表在《決策支持系統》上。
當運行光學字符識別軟件時,很多時候文本會出現亂碼。對于舊報紙、書籍和雜志,問題可能來自于油墨質量差、皺褶或撕裂的紙張,甚至是軟件沒有想到的不尋常頁面布局。
為了開發該算法,研究人員與紐約公共圖書館(NYPL)合作,分析了《紐約太陽報》在1894年11月和12月期間發表的14000多篇文章。紐約公共圖書館已經掃描了20多萬頁報紙。
研究人員的算法根據一些屬性對人名的重要性進行排名,這些屬性包括名字的上下文、名字前面的標題、文章的長度以及名字在文章中被提及的頻率。該算法僅從文本中學習這些屬性——它并不依賴維基百科或其他知識庫等外部信息來源。
但由于光學字符識別文本是亂碼,它無法確定這些屬性對人名的排名有效性多高。因此,研究人員使用統計措施對許多數據屬性進行建模,這有助于提供所需的姓名排名。
研究人員使用兩組歷史文章來測試他們的算法。一套是由光學字符識別軟件產生的原始文本,另一套是由紐約市的學童手動清理過的,他們用這些文章來寫當時當地著名人物的傳記。
結果發現,當與清理過的故事版本相比,即使從嘈雜的光學字符識別文本中,排名算法也能對人名進行高度精確的排序。
研究人員認為,這項研究對發現整個歷史上的重要人物有廣泛的影響。研究人員還表示,最近在南北戰爭時期的非裔美國人文獻上使用了這種技術,以了解更多關于奴隸制時代的重要人物。今后將擴大這項技術,以檢查人與人之間的關系,并建立起過去的社會網絡。
題為PNRank: Unsupervised ranking of person name entities from noisy OCR text的相關研究論文發表在《決策支持系統》上。
前瞻經濟學人APP資訊組
論文原文:
https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub