頻出パターンに基づくWeb上からの知識の獲得


995071鈴木 悠介

概要

近年、情報化社会においてインターネットの利用者数の増加は年々進み、それに伴いWeb上で世界中のありとあらゆる情報が配信されるようになってきた。その結果、有効な情報を効率よく獲得したいという要求が高まっている。このように蓄積されたデータから情報を獲得するための手法の一つが、データマイニングである。データマイニングは、データベースに蓄積された大量のデータから、自明でない有用な情報を発見することをいう。本研究では、データマイニング手法の一つである相関ルールを用いて、知識の獲得対象に沿って集めたWeb上のHTMLファイルから、語の頻出パターンを発見し、得られた頻出パターンの検証と考察を行う。

もどる