2007年04月04日

バイトとオクテットの違いは何か(EJ第2052号)

 ISO−2022−JPは、村井氏とその仲間が中心となって
開発したものであるので、JUNETコードといわれています。
これは1バイト(8ビット)のうち、7ビットの部分しか利用で
きないようにしているのです。
 電子メールを送信するとき、メール自体はシフトJISで作成
されているので、メール送信時には日本語部分はシフトJISか
らJISコードに変換されて送信されます。
 このメールを受信した側のメールソフトは、メール中に埋め込
まれているエスケープ・シーケンスに基づいて、それ以降の文字
コードの種類を判断します。ASCIIの部分はそのままの英数
字として、JISコードの部分はシフトJISに変換したうえ画
面に表示されるのです。
 日本語を表示させる文字コードのうち、JISコードとシフト
JISについては説明を終わっていますが、もうひとつ残ってい
ます。それは「EUC」です。EUCは漢字EUCともいわれま
すが、次の省略形です。
―――――――――――――――――――――――――――――
       EUC = Extended Unix Code
―――――――――――――――――――――――――――――
 EUCはUNIXの環境下で主として使われます。ASCII
とは違って8ビット文字です。日本語だけではなく、韓国語版、
中国語版なども存在する国際語対応です。
 村井氏は、ISO−2022−JPの開発のかたわらUNIX
の国際語化についての基本的な解決努力をしています。1バイト
――8ビットのうちの8ビット目に特別な意味を持たせないよう
にベル研究所に訴えることです。
 1986年に村井氏はベル研究所で講演をしています。そのと
き、村井氏は日本では電子メールの多言語化、マルチランゲージ
化に取り組んでいる――そのためには8ビット目を何かに使わな
いようにして欲しいと訴えたのです。
 それから半年後に村井氏はもう一度ベル研究所から講演を依頼
されます。そのときのことを村井氏は次のようにいっています。
―――――――――――――――――――――――――――――
 半年後にもう一度講演に呼ばれてベル研究所を訪れたら、驚い
 たことにケン・トンプソンをはじめとする一流のコンピュータ
 ・サイエンティストたちが夢中になってビット・マップ・ディ
 スプレイに日本語を表示する研究をやっていました。
             ――滝田誠一郎著、『電脳創世記/
 インターネットにかけた男たちの軌跡』 実業之日本社刊より
―――――――――――――――――――――――――――――
 ケン・トンプソンといえばUNIXの開発者です。それを助け
たのはC言語の開発者であるデニス・リッチです。そのケン・ト
ンプソンとデニス・リッチが、村井純氏の講演を聞き、UNIX
の国際語化をやらないと、日本に先を越されると考えたのです。
 それ以降、ベル研究所の中で、米国においてUNIXの国際語
化の取り組みが本格化するようになり、やがて彼らの手によって
実現します。それがEUCです。
 これは、JISコードとは異なり、8ビットです。また、シフ
トJISに似ていますが、それとも異なります。このように、ベ
ル研究所を動かしたのは村井純その人なのです。
 インターネットの歴史に関連して、ビットやバイトの話をせざ
るを得ないので、逡巡しながらもあえて取り上げています。なぜ
なら、この話をすると、とくに中高年層は嫌うのです。大して難
しくないのに難しいと考える人が多いからです。
 私は、EJと同じ内容の記事を2年前からブログに掲載してい
ますが、このテーマになる前は一日平均450人――一日平均ア
クセス1200回――の来訪者があり、未踏の一日500人来訪
の直前まで来ていたのです。
 しかし、このテーマになると来訪者は減りはじめ、現時点では
150人ほど減って300人前後――一日平均1000回アクセ
スになっています。メルマガとしてのEJも届いているのに、こ
のテーマに関しては読んでいない人が多いと思います。これは大
変残念なことです。
 興味のないテーマまで読むことはない――こういう意見を持つ
人は多いです。それが正しいと思っています。しかし、この考え
方に立つと、知識が限定され、判断できること、理解できること
が限られてしまうのです。これは大変残念なことです。
 しかし、コンピュータやインターネットの話をするのに、この
話を避けては通れないのです。したがって、これからもひるむこ
となく続けていきます。
 繰り返しになりますが、8ビットは1バイトです。これはコン
ピュータにおいて情報の大きさをあらわす単位です。しかし、既
に見てきたように、1バイトには8ビットの場合も7ビットの場
合もあるのです。
 しかし、通信ネットワークの世界では8ビットは8ビットとし
て扱うので、バイトという単位を使わないのです。それは次の別
の名前で呼ばれるのです。
―――――――――――――――――――――――――――――
          8bit = 1 Byte
          8bit = 1 Octet
          Octet = Octopus
―――――――――――――――――――――――――――――
 オクテット――これはオクトパス(蛸)という意味であり、蛸は
8本足があるので、そう呼ばれます。
 文字コードにはもうひとつ「ユニコード」というものがありま
す。しかし、ユニコードについては、日本のインターネットの歴
史と離れるので、別の機会に取り上げることにします。
 とにかくインターネット上で日本語が使えるところまで話はき
ました。村井純氏とその仲間――もし、彼らの努力がなければ、
ここまできていないのです。
        ― [インターネットの歴史 Part2/20]


≪画像および関連情報≫
 ・オクテットとは何か
  ―――――――――――――――――――――――――――
  情報通信の分野で、8ビット単位の情報。バイトの大きさが
  対象となる情報系に依存する(すなわち8ビットの場合もあ
  ればそうでない場合もある)のに対し、「オクテット」は常
  に8ビットを意味する。特に通信関係でよく使われる。なお
  音楽の世界で8人の奏者による重奏、またはその曲。メンデ
  ルスゾーン作曲の『弦楽八重奏曲』が有名である。
                    ――ウィキぺディア
  ―――――――――――――――――――――――――――

b`.jpg
posted by 平野 浩 at 04:46| Comment(1) | TrackBack(0) | インターネットの歴史 Part2 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
「ベル研究所を動かしたのは村井純その人なのです」とあるのですが、これ、どうも私には納得がいきませんでした。日本語UNIX諮問委員会(委員長:石田晴久)が『UNIXシステム日本語機能提案書』をAT&Tインターナショナルジャパンに答申したのは1985年4月で、これを元にベル研究所は遅くとも1985年11月には、UNIX System Vの国際化モジュールに着手しています。つまり、文字コードとしてのEUCは、1985年にはベル研究所で使われていたはずです。よければ拙著『文字符号の歴史 欧米と日本編』のpp.160-161あたりもごらん下さい。
Posted by 安岡孝一 at 2007年04月09日 11:33
コメントを書く
お名前: [必須入力]

メールアドレス: [必須入力]

ホームページアドレス:

コメント: [必須入力]


この記事へのトラックバック