mwultong Blog ... 프로그래밍 / 계산기

컴퓨터 엑셀 워드 포토샵 구글어스 WINDOWS JAVASCRIPT JAVA C++

 
Sunday, March 23, 2008

한 문자는 몇바이트? 1글자는 몇 바이트 비트 용량? 텍스트파일, 아스키, 유니코드에서; Char Byte


원래 "ABCD 1234 !@#$..." 이런 "영숫자 반각문자"는 1바이트입니다. 키보드로 직접 타이핑할 수 있는 문자들입니다. 공백(" ") 문자도 마찬가지로 1바이트입니다. 1바이트(Byte)는 8비트(Bit)입니다.

"가나다라 國家" 이런 한글이나 한자의 경우, 1글자는 2바이트입니다. 즉, 16비트입니다.

그런데 위의 경우는, 평범한 "아스키 텍스트 파일(ASCII Text / ANSI Text)"에서의 경우입니다.

전세계 모든 문자를 한꺼번에 표현할 수 있는 다국어 인코딩, 즉 "유니코드(Unicode)"에서는 좀 복잡해집니다:

* 인터넷 웹페이지 작성에 사용되는 "UTF-8 유니코드"에서는, 한글이나 한자가 3바이트입니다. 다만 영문이나 숫자는 여전히 1바이트입니다. 또한 4바이트 이상의 문자도 있을 수 있습니다.

* 윈도우에서 내부적으로 사용되는 "유니코드" 즉 "16비트 유니코드(UTF-16)에서는, 모든 글자가 2바이트입니다. 공백도 2바이트이고, 무조건 다 2바이트입니다. 다만 희귀한 한자의 경우에는 2바이트보다 많을 수도 있습니다.


그러나 컴퓨터에서 문자 1개가 몇 바이트인지 묻는 질문에는 1바이트라고 대답하면 대부분 정답입니다. 컴퓨터는 원래 ABC abc 123 !@#$% 이런 영문과 숫자와 기호만 표현할 수 있고, 한글이나 한자는 바이트 2개나 그 이상의 개수로 합쳐서 억지로 표현하는 것입니다.




tag: windows
윈도우 | Windows 7 | Windows XP | Windows 2000

0 Comments:

<< Home RSS 2.0 feed

구글 Google 에서 제공하는 무료 블로그 서비스인 블로거 Blogger 의 인터넷 주소는 www.blogger.com 입니다. Blogger 에 블로그를 만들면, blogspot.com 이라는 주소에 블로그가 생성됩니다.
블로그를 직접 방문하지 않고도 최신 게시물을 구독하려면 RSS 2.0 feed 주소를 리더기에 등록하시면 됩니다.
Previous Posts
Monthly Archives
Top