基於組合分類器的生物命名實體識別

才智咖 人氣:2.07W

論文摘要: 生物命名實體識別是一項非常重要和基礎的生物醫學文字挖掘技(略)鍵的一個步驟,只有正確地識別出生物命名實體,才能有效地完成基因標準化、生物事件抽取以及蛋白質-蛋白質互動關係抽取等更加複雜的工作.生物醫學命名實體包括(略)、DNA、RNA等,通常有著複雜的結構,對於這些實體的鑑別和分類是非常富有挑戰性的.機器學習方法例如CRF、MEMM和SVM已經廣泛的應用於從已標註的語料中學習識別出生物醫學命名實體.然而,生物命名實體識別系統的效能仍然沒有普通命名實體識別系統的好.(略)高生物命名實體識別的效能,研究者提出了合併多個分類器結果的多分類器方法. 本文主要研究基於組合分類器的生物命名實體識別方法,實驗是在BioCreAtIvE 2GM的訓練語料和測試語料上進行的.本文主(略)下兩點: ⒈構建單一分類器模型 本文利用不同的分類模型、不同的分類方法和特徵集構建了六個不同的機器學習模型,並對每種模型採用的`特徵集,特徵抽取方法,以及訓練過程進行了詳細介紹. (略)提高最大熵方法的識別效能,本文采用TBL方法對最大熵的標註結果進行了糾錯處理.實驗結果顯示糾錯處理在很大程...

基於組合分類器的生物命名實體識別

Biomedical Named Entity Recognition (Bio-NER) is (omitted)ly important and fundamental task of biomedical text mining, and is also a critical step for biomedical text mining, only when(omitted)ies are correctly i(omitted)could other more complex tasks, such as, gene normalization, biomedical eve(omitted)tion and protein-protein interaction extraction, be performed effectively. Biomedical named entities include mentions of proteins, genes, DNA, RNA, etc which oft(omitted)omplex structures, but it is cha...

目錄:

摘要 第4-5頁

Abstract 第5-6頁

1 緒論 第9-16頁

·研究背景與意義 第9-10頁

·研究現狀 第10-14頁

·本文主要研究內容 第14頁

·本文組織結構 第14-16頁

2 機器學習模型 第16-25頁

·支援向量機模型 第16-18頁

·最優分類超平面 第16頁

·核函式 第16-17頁

·SVM多分類問題擴充套件方法 第17-18頁

·最大熵模型 第18-20頁

·條件隨機場模型 第20-24頁

·CRF的無向圖結構 第21-22頁

·CRF與勢函式 第22-23頁

·CRF的引數估計 第23-24頁

·本章小結 第24-25頁

3 單一分類器的構建 第25-40頁

·實驗語料及語料的預處理方法 第25-26頁

·有效的特徵資訊 第26-28頁

·不同單一分類器的構建 第28-38頁

·基於條件隨機場的生物命名實體識別 第29-32頁

·基於支援向量機的生物命名實體識別 第32-34頁

·最大熵方法的生物命名實體識別 第34-38頁

·本章小結 第38-40頁

4 基於組合分類器的生物命名實體識別方法 第40-46頁

·組合分類器方法 第40-43頁

·後處理 第43-45頁

·本章小結 第45-46頁

5 實驗與結果分析 第46-54頁

·單個分類器實驗結果 第46-47頁

·組合分類器方法的識別結果 第47-52頁

·集合並/交操作方法實驗結果 第47-49頁

·投票方法實驗結果 第49-50頁

·疊加方法實驗結果 第50-51頁

·結果比較與分析 第51-52頁

·錯誤分析與總結 第52頁

·本章小結 第52-54頁

結論 第54-55頁

參考文獻 第55-58頁

攻讀碩士學位期間發表學術論文情況 第58-59頁

致謝 第59-61頁