シフトJISコード体系における
日本語文書圧縮の前処理に関する研究


935028岡田 英之
935037加藤
935039加藤 喜昭
  • 概要
    近年、インターネットをはじめとするコンピュータネットワークが盛んである。国内でのコンピュータネットワーク、特に電子メールに代表されるメッセージ交換では、転送データのほとんどが日本語文書によって占められている。これらの日本語文書を少ないデータで表現できれば、コスト軽減ができ有意義である。そこで、本研究では対象を日本語文書に限ったデータ圧縮について考察する。具体的には、広くパーソナルコンピュータなどで利用されているシフトJISコード体系に限定した圧縮方法について考える。操作方法は、まずシフトイン・シフトアウトを含まずに短縮表現を実現させる。さらに、それに対して既存圧縮法を組み合わせることにより、短縮表現を行わなかった場合よりも圧縮率を小さくさせることを目的とする。