컴퓨터 엑셀 워드 포토샵 구글어스 WINDOWS JAVASCRIPT JAVA C++

 
Friday, May 11, 2007

Perl 펄] 한글 문자열 1글자씩 처리, 유니코드(UTF-8) 배열로 변환; Unicode String to Array


영문 문자열과 달리, 한글 문자열을 unpack 함수로 한 글자씩 분리하여 배열로 만들려면 잘 되지 않습니다. 한글 완성형(CP949;euc-kr)이 아닌, 유니코드(UTF-8) 인코딩을 사용해야 합니다.

영문 문자열을 1글자씩 처리하는 법은 여기에 있습니다: ▶▶ Perl 펄] unpack pack 함수, 문자열을 1글자씩 처리, 배열로 변환

아래의 소스는 한글이나 일본어/중문 등의 2바이트 문자를 다루는 것입니다.

유니코드를 도스창(콘솔)/터미널 화면에 직접 출력하는 것은 불안정하기에, 화면이 아닌 out.txt 라는 파일로 결과를 저장합니다. 출력 파일인 out.txt 파일도 유니코드(UTF-8) 인코딩입니다.

한글 한 글자씩 분리하여 배열로 변환 예제


파일명: example.pl
이 소스 파일은 "유니코드(UTF-8)" 인코딩으로 저장해야 합니다. 그렇지 않으면 Malformed UTF-8 character... 같은 에러가 납니다.
#!/usr/bin/perl
use strict; use warnings;

use utf8;

  open OUT, ">:encoding(UTF-8)", "out.txt" or die "$!\n";


  ####################################################
  ## 유니코드 한글 문자열을 배열로 변환
  #
  my $s = "똠방각하"; # 문자열 정의

  # 한글 문자열을 1글자씩 분해하여 배열로 만들기
  my @array = unpack "U*", $s;

  # 배열 내용을 파일에 출력 (1글자씩 나옴)
  print OUT chr($_), "-" foreach (@array);



  print OUT "\n\n"; # 줄바꿈



  ####################################################
  ## 배열을 문자열로 변환
  #
  my $result = pack "U*", @array;

  # 문자열을 파일에 출력
  print OUT $result, "\n";



unpack 과 pack 함수의 "U*" 라는 옵션은 유니코드로 처리하라는 뜻입니다.


생성된 out.txt 파일 (UTF-8) 의 내용:
똠-방-각-하-

똠방각하



0 Comments:

Post a Comment

<< Home RSS 2.0 feed

구글 Google 에서 제공하는 무료 블로그 서비스인 블로거 Blogger 의 인터넷 주소는 www.blogger.com 입니다. Blogger 에 블로그를 만들면, blogspot.com 이라는 주소에 블로그가 생성됩니다.
블로그를 직접 방문하지 않고도 최신 게시물을 구독하려면 RSS 2.0 feed 주소를 리더기에 등록하시면 됩니다.
Previous Posts
Monthly Archives
Top