컴퓨터 엑셀 워드 포토샵 구글어스 WINDOWS JAVASCRIPT JAVA C++

 
Wednesday, August 29, 2007

UTF-8 EUC-KR 변환할 때 HTML 글자 깨짐 해결법


"UTF-8 인코딩"은 "유니코드"이기에, 전세계 모든 문자를 다 표현할 수 있습니다. "EUC-KR 인코딩"은 "한글 완성형"이라서, 한글과 한국에서 사용되는 한자 등만 제한적으로 표현 가능합니다.

따라서, 그 UTF-8 파일에 한글이 아닌 중국어 간체자나 독일어 움라우트, 일본식 한자, 희귀한 특수문자 등이 포함되어 있다면 당연히 글자 깨짐이 발생합니다.

이때는 한글 완성형 인코딩으로 표현할 수 없는 글자를 예를 들어
圳
이렇게 숫자로 변환하여 표현하면 됩니다. 다만 웹문서(.html)에서만 되고, 일반 "텍스트 문서(.txt)"에서는 이 방법이 안됩니다.

외국어 문자를 숫자로 변환하는 법은 여기에 설명되어 있습니다: ▶▶ 한국어(euc-kr) 페이지에서 중국식 한자 구현

유니코드 인코딩 인식 오류의 문제


한글이나 영문만 들어 있는 UTF-8 파일인데도 EUC-KR 로 변환하면 글자가 깨지는 경우가 있습니다. 이것은 변환기에서 에러가 발생한 것입니다. 변환기가 UTF-8 파일을 UTF-8 로 정확히 인식하지 못한 상태에서, EUC-KR 로 변환하면 글자가 깨집니다.

이때는 EmEditor | 이엠에디터 같은 유니코드 전문 편집기로 변환 작업을 해 보는 것이 좋습니다.


BOM이 없는 UTF-8 파일에서 인코딩 착오가 많이 발생합니다. 참고: ▶▶ [QnA] 유니코드 (Unicode) 의 BOM (Byte Order Mark) 이란?

일반 유니코드(Unicode)와 'UTF-8 유니코드'의 차이점 참고: ▶▶ 일반 유니코드(Unicode)와 'UTF-8 유니코드'의 차이점, 차이




tag: editor
텍스트 에디터 | 문서 편집기 | Text Editor
tag: html
HTML | CSS | 자바스크립트 JavaScript

0 Comments:

Post a Comment

<< Home RSS 2.0 feed

구글 Google 에서 제공하는 무료 블로그 서비스인 블로거 Blogger 의 인터넷 주소는 www.blogger.com 입니다. Blogger 에 블로그를 만들면, blogspot.com 이라는 주소에 블로그가 생성됩니다.
블로그를 직접 방문하지 않고도 최신 게시물을 구독하려면 RSS 2.0 feed 주소를 리더기에 등록하시면 됩니다.
Previous Posts
Monthly Archives
Top