關注 >   >  正文

        舊報紙不用再封塵了!新算法可從歷史文件中搜索并提取信息

        評論

        舊報紙給我們提供了一個了解過去的窗口,紐約州立大學布法羅分校的研究員開發了一種新算法,試圖將這些歷史文件變成有用的、可搜索的數據。

        這種算法可以從光學字符識別(OCR)產生的結果中找到人名并按重要性排序,光學字符識別是將掃描文件轉化為文本的計算機化方法,通常比較雜亂。相關算法研究發表在《決策支持系統》上。

        當運行光學字符識別軟件時,很多時候文本會出現亂碼。對于舊報紙、書籍和雜志,問題可能來自于油墨質量差、皺褶或撕裂的紙張,甚至是軟件沒有想到的不尋常頁面布局。

        為了開發該算法,研究人員與紐約公共圖書館(NYPL)合作,分析了《紐約太陽報》在1894年11月和12月期間發表的14000多篇文章。紐約公共圖書館已經掃描了20多萬頁報紙。

        研究人員的算法根據一些屬性對人名的重要性進行排名,這些屬性包括名字的上下文、名字前面的標題、文章的長度以及名字在文章中被提及的頻率。該算法僅從文本中學習這些屬性——它并不依賴維基百科或其他知識庫等外部信息來源。

        但由于光學字符識別文本是亂碼,它無法確定這些屬性對人名的排名有效性多高。因此,研究人員使用統計措施對許多數據屬性進行建模,這有助于提供所需的姓名排名。

        研究人員使用兩組歷史文章來測試他們的算法。一套是由光學字符識別軟件產生的原始文本,另一套是由紐約市的學童手動清理過的,他們用這些文章來寫當時當地著名人物的傳記。

        結果發現,當與清理過的故事版本相比,即使從嘈雜的光學字符識別文本中,排名算法也能對人名進行高度精確的排序。

        研究人員認為,這項研究對發現整個歷史上的重要人物有廣泛的影響。研究人員還表示,最近在南北戰爭時期的非裔美國人文獻上使用了這種技術,以了解更多關于奴隸制時代的重要人物。今后將擴大這項技術,以檢查人與人之間的關系,并建立起過去的社會網絡。

        題為PNRank: Unsupervised ranking of person name entities from noisy OCR text的相關研究論文發表在《決策支持系統》上。

        前瞻經濟學人APP資訊組

        論文原文:

        https://www.sciencedirect.com/science/article/abs/pii/S016792362100172X?via%3Dihub

        標簽: 提取 搜索 中搜 文件

        今日熱點

        熱點排行

        最近更新

        所刊載信息部分轉載自互聯網,并不代表本網贊同其觀點和對其真實性負責。郵箱:5855973@qq.com

        聯系我們| 中國品牌網 | 滬ICP備2022005074號-18 營業執照  Copyright © 2018@. All Rights Reserved.

        亚洲国产人成中文幕一级二级| 亚洲国产女人aaa毛片在线| 亚洲色少妇熟女11p| 亚洲午夜精品一级在线播放放 | 国产av无码专区亚洲av桃花庵| 亚洲午夜一区二区三区| 日韩亚洲欧洲在线com91tv| 久久青青草原亚洲av无码| 亚洲精品9999久久久久无码| 亚洲一区二区成人| 亚洲色精品88色婷婷七月丁香| 亚洲av无码成人影院一区| 亚洲成a人片在线观看中文app| 国产AⅤ无码专区亚洲AV| 亚洲国产午夜精品理论片在线播放| 亚洲熟妇少妇任你躁在线观看| 亚洲神级电影国语版| 亚洲国产精品成人久久| 亚洲AV日韩AV永久无码绿巨人| 狠狠亚洲婷婷综合色香五月排名| 国产AV无码专区亚洲AWWW| 国产亚洲精品精华液| 亚洲一区日韩高清中文字幕亚洲| 亚洲精品无码专区久久同性男| 国产黄色一级毛片亚洲黄片大全| 亚洲熟妇av一区二区三区| 亚洲国产精品高清久久久| 日韩精品亚洲人成在线观看| 亚洲国产精品综合久久2007| 亚洲AV无码久久寂寞少妇| 自拍偷自拍亚洲精品被多人伦好爽 | 久久久久久亚洲Av无码精品专口 | 亚洲综合区图片小说区| 亚洲一区无码中文字幕乱码| 久久精品国产亚洲AV无码偷窥| 亚洲成a人不卡在线观看| 精品亚洲成在人线AV无码| 亚洲videos| 国产精品久久久久久亚洲影视| 亚洲码和欧洲码一码二码三码| 国产成人高清亚洲一区久久|