巴西塞阿拉聯邦大學最近發表的一篇論文預印本中提供了一個新的自然語言處理框架來自動化從科學數據中總結和提取核心數據。
對于科研工作者來說,日常工作中有相當大一部分的內容是通過搜索檢閱相關論文,并摘取其中的有效信息。然而,閱讀一篇論文并提煉中與自己研究工作相關的內容需要大量的精力,而閱讀幾十篇論文更是不易。在這項研究當中,研究團隊提出了一種基于機器學習(ML)的自然語言處理(NLP)方法,能夠自動識別并從文章的語料庫中提取分類和數字參數。
該方法(命名為a.RIX)通過同時/互換使用ML模型,如神經元網絡(NN)、潛在語義分析(LSA)、天真貝葉斯分類器(NBC)和使用正則表達式(REGEX)的模式識別模型來操作。
為了測試a.RIX引擎的效率,研究團隊使用了一個由7,873篇涉及天然產品(NPs)的科學文章組成的語料庫來進行測試。該引擎自動提取分類和數字參數,如(i)提取活性分子的植物種類,(ii)活性分子可以對付的微生物種類,以及(iii)對這些微生物的最小抑制濃度(MIC)值。這些參數的提取不需要語音標記(POS)和命名實體識別(NER)方法(即不需要文本注釋),模型的訓練是在無監督下進行的。這樣一來,a.RIX基本上可以用于任何科學領域的文章。
前瞻經濟學人APP資訊組
論文原文
https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf