WEKO3
アイテム
Bayesian Spam Filterを用いた要約の自動分類の試み
https://doi.org/10.15112/00012825
https://doi.org/10.15112/00012825a3312b16-d09c-4226-9dee-4aaaea6dc443
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
|
Item type | 紀要論文(ELS) / Departmental Bulletin Paper(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2006-01-01 | |||||||
タイトル | ||||||||
タイトル | Bayesian Spam Filterを用いた要約の自動分類の試み | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
言語 | en | |||||||
主題Scheme | Other | |||||||
主題 | bayesian spam filter | |||||||
キーワード | ||||||||
言語 | en | |||||||
主題Scheme | Other | |||||||
主題 | text classification | |||||||
キーワード | ||||||||
言語 | en | |||||||
主題Scheme | Other | |||||||
主題 | machine learning | |||||||
キーワード | ||||||||
言語 | en | |||||||
主題Scheme | Other | |||||||
主題 | feature selection | |||||||
キーワード | ||||||||
言語 | en | |||||||
主題Scheme | Other | |||||||
主題 | bayes theory | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | departmental bulletin paper | |||||||
ID登録 | ||||||||
ID登録 | 10.15112/00012825 | |||||||
ID登録タイプ | JaLC | |||||||
ページ属性 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | P(論文) | |||||||
その他(別言語等)のタイトル | ||||||||
その他のタイトル | Trial on the Automatic Classification of Abstracts Using the Bayesian Spam Filter | |||||||
論文名よみ | ||||||||
その他のタイトル | BAYESIAN SPAM FILTER オモチイタ ヨウヤク ノ ジドウ ブンルイ ノ ココロミ | |||||||
著者名(日) |
田中, 昌昭
× 田中, 昌昭
|
|||||||
著者別名 | ||||||||
姓名 | Tanaka, Masaaki | |||||||
著者所属(日) | ||||||||
川崎医療福祉大学医療福祉マネジメント学部医療情報学科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Health Informatics, Faculty of Health and Welfare Services Administration, Kawasaki University of Medical Welfare | ||||||||
抄録(日) | ||||||||
保健医療分野では,病名や検査データのように構造化されたデータ以外に,インシデントレポート,放射線読影レポート,退院時サマリなど,構造を持たないテキストデータを扱うことが多い.これらのテキストデータを有効に活用するには何らかの方法でコード化して保存や検索を容易にする必要がある.しかしながら,日常の診療において日々大量に発生するテキストデータを人手によって分類し,コード化する作業は容易なことではない.そのような場合,機械学習の分野で培われてきたテキスト分類技術を利用して,分類作業の自動化を行うことに期待が集まる. 本研究では,迷惑メール(Spam)のフィルタとして考案されたBayesian Spam Filterを医学テキストの自動分類に適用し,その可用性を検討した.Bayesian Spam Filterは,Bayes 理論に基づき,分類済みのコーパスからテキストを構成する単語と分類カテゴリの関連性の度合いを学習し,未知のテキストを分類する技術である.医学テキストとしてPubMedからキーワードを指定して収集したabstractを用いた.Bayesian Spam Filterには当初Grahamによって考案され,その後,Robinsonによって改良が加えられたモデルを利用した.予備実験として,これらのモデルが使うパラメタの最適値を求め,それらを用いて各モデルの分類性能を調べた. その結果,最大でRecallが96.0%,Precisionが92.9%という分類性能を得た.これは,Bayesian Spam Filterの本来の目的であるSpamの分類成績には遠く及ばないものの,改善次第では十分に実用に耐えられる成績である.同時に,Robinsonの改良モデルにΧ^2による特徴選択を適用することにより,分類性能が向上することを明らかにした. | ||||||||
抄録(英) | ||||||||
en | ||||||||
In the healthcare domain, unstructured written medical records such as inpatient discharge summaries must be dealt with. In order to utilize them effectively, they need to be encoded to facilitate archiving and later retrieval. However, it is not an easy task to classify and encode them manually. An automated system, using text classification technology cultivated in the field of machine learning is needed. In the present study, the author applied the Bayesian Spam Filter to the automatic classification of a medical text and examined its feasibility. A Bayesian Spam filter breaks down a text into its constituent words, assesses the degree of their relevance to classification categories from a corpus that has been developed beforehand, and then classifies the novel text into relevant categories. For medical texts, the author collected abstracts from PubMed. As Bayesian Spam filters, models were utilized that were first devised by Graham and improved by Robinson. Some preliminarily experiments were performed to determine the optimal parameters, followed by an examination of classification performance. The results show that, the model achieved 96.0% recall and 92.9% precision at the maximum, which is considered to be acceptable for practical use. | ||||||||
記事種別(日) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 原著 | |||||||
書誌情報 |
川崎医療福祉学会誌 巻 15, 号 2, p. 539-552, 発行日 2006 |
|||||||
公開者 | ||||||||
出版者 | 川崎医療福祉学会 | |||||||
その他(別言語)の雑誌名 | ||||||||
Kawasaki medical welfare journal | ||||||||
雑誌書誌ID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10375470 | |||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 0917-4605 | |||||||
URL | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | http://www.kawasaki-m.ac.jp/soc/mw/journal/jp/2006-j15-2/23_tanaka.pdf |