スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

文字コード

こっそりジャンル分け。
テキトーにウソや妄想を交えながら書いていく(素人視点による)情報処理の話。

何と第2回!


そんな本日のテーマは【文字コード】


まず間違いなくほとんどの人を置いていってしまう内容な上に、

うっかり本職の人が見ると、

「うはっwwwウソ乙www」
とかなりそうなので、格納記事でひっそりやっていきます。


【業務連絡】

この企画は、以前の記事の下書きを使って、
日にちが古い記事としてやっていく予定でしたが、

もう下書きが残っていなかったので
仕方なく新しい記事となりました。


では、以下格納です。






【文字コードって何じゃい?】

(Wikipediaより引用)
文字コード(もじコード)はコンピュータ上で文字(キャラクタ (コンピュータ))を利用するために各文字に割り当てられるバイト表現。もしくは、バイト表現と文字の対応関係(文字コード体系)のことを指して「文字コード」と呼ぶことも多い。
文字コードとは、コンピュータなどの電子媒体において、文章を画像などの図形データとして扱わずに、テキストの形式で扱う場合に、その各文字(単一の文字でない場合もある)に対して持っているコードのことである。

と、小難しく書いておりますが、

コンピューターで文字とか表示したいときに
何だかよくわからない記述をすれば、
できるようになるよー。

と言うことです。


<よくわかんない記述の例>

プログラムを作って「A」を表示したいときに、
「 (命令) 画面出力 : 'A'
とすれば、「A」が画面に出力されます。

これを、
「 (命令) 画面出力 : 0x41
としても、「A」が画面に出力される(かも知れません)。

この「0x41」「A」を表す文字コードです。
※C言語の場合


<さらに脱線>

何でこういう風に訳がわからない数字(0x41とか)で書くのかと言うと、
機械が理解できるように命令を書く必要があるからです。

そんな機械さんは、2進数でのみ命令を受けていただけます。

ちなみに0x41とは、16進数で41を表すものとなっているそうなので、

0x41(16進数) → 01000001(2進数)

16進数と2進数の変換はコチラの格納記事を参照のこと

文字コードというのは機械に近い記述っぽいですね。


【文字コードにも色々あった】

(Wikipediaより引用・・・は長くなるので割愛)

コンピューターの発展は、主にアメリカが先駆けておりましたので、
初期の文字コードというのは英語基準と言うのが多いらしいです。

ところが、
元々の言語(英語とか日本語・おフランス語・アメリカ語等々)は多岐に渡ります。

どうしてもコンピューターの画面に自国語を出力したいとなると、
自分の国で使える文字コードを作ってしまいます。

そしてたくさんの文字コードが生み出されていくことになります。


<これによって起きる悲劇>

と引っ張りましたが、
いわゆる「文字化け」です。

相手から送られてきた文字を、自分のコンピューターで出力させる場合、
自分の文字コードにない文字が入っていたら、

「くぁwせrftgyりつこlp;」

こういう文字化けはしないだろうけれども。

文字コードの違いによる文字の変換ミスとか、
文字コードの表に存在しないとか、
そんなんだと思われ。


【有名な文字コード】

むしろここから本題。
これだけ覚えとけばいいんじゃない?
と言うものを紹介。


<ASCIIコード>

(参考元 e-Words様)
1963年に「ANSI」(アメリカ規格協会)が策定。
異なるコンピューター間で情報を交換する為に生み出された文字コード。

1967年には「ISO」(国際標準化機構)でほぼそのままの状態で標準化される。
(通称: ISOコード)
これが、世界各国で作られているほとんどの文字コードの基礎となっているらしい。

7ビットで表現され、128種類のローマ字、数字、記号、制御コードで構成されている。
残りの128個に、色んな国別の表現が出来るような何かが入っているらしい。

C言語学習の味方。


<JISコード>

(参考元 e-Words様)
ISOで標準化されたASCIIコードをベースとして、
日本特有の文字が出力できるように制定された、日本の文字コード。
1993年に「JIS」(日本工業規格)で標準化された7バイトの文字コード。


<シフトJISコード>

(参考元 e-Words様)
日本語文字コードのひとつ。

JISコードでは特殊な切り替えコードを使って
全角文字と半角カナ文字を混在させていたが、
同一の文字コード体系で表現できるようになった。

日本語環境では圧倒的に普及したため、
他の文字コード体系に比べると、データ交換性が高い。


<EBCDIC>

(参考元 e-Words様)
アメリカのIBMが開発した8ビットの文字コード。
自社向けで作っていたものの、当時の大型コンピューターはIBMが市場の大半を占めていたため、
汎用大型コンピューターの業界標準(デファクトスタンダード)となっている。


<Unicode>

(参考元 e-Words様)
現在最強と噂される文字コード。
16ビットで表現するため、非常に多くの文字を収録できるのがメリット。
もちろん日本語も対応。

しかも、この文字コードは
Apple、IBM、Microsoftと言う豪華メンツが提唱し、
ISO(国際標準化機構)で標準化されてます。
世界の主要言語を網羅しているのは非常に強みだと思われ。


<EUC>

(参考元 e-Words様)
(Extended Unix Code)
Unixで複数バイトの文字を扱うために規定された文字コード。
日本語も使えます。

AT&T社が作成。
そもそもUnixもここが作成している。
拡張UNIXコードとも言われる。



【文字コード深すぎワロタ】 

と言うか、調べると文字コードだけで何日も過ごせそうなボリュームでビビる。
このまま調べ続けるとキリがないのでここで終了。


ではまた。
スポンサーサイト

コメントの投稿

非公開コメント

りつこw

Re: タイトルなし

> se2g氏
文字化けを再現するのが面倒だったので。
あと、律子は俺の嫁
プロフィール

koukou263

Author:koukou263
ニコニコに動画をうpしてた人
【ニコニコ動画】自作ニコ割
【ニコニコ動画】iM@Sうpリスト

最新記事
最新コメント
カテゴリ
月別アーカイブ
リンク
最新トラックバック
検索フォーム
QRコード
QRコード
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。