シフトJISコード体系における
日本語文書の短縮表現に関する研究


925004麻生 誠二
925151横井 忠司
925511枝元 太吾
  • 概要
    ここ数年、インターネットをはじめとするコンピュータネットワークが盛んになり、電子メールなどメッセージの送受信を行う際のデータ圧縮技術が重要な役割を果たしている。国内でのコンピュータネットワークにおけるメッセージ交換では、転送データのほとんどが日本語文書で占められている。これまでにデータ圧縮に関する研究は広く行われてきたが、対象を日本語文書に限ったものに関してはあまり行われていない。
    本研究では圧縮対象を日本語文書とする。具体的には、広くパーソナルコンピュータで利用されているシフトJISコード体系における2バイト文字のみに限定した圧縮方法について考える。提案する方法では、まず短縮表現実現する。さらに、それに対して既存の圧縮方法を組み合わせることにより、短縮表現を行わなかった場合よりも圧縮率をより小さくすることを目的とする。