Friday, May 11, 2007
Perl 펄] 한글 문자열 1글자씩 처리, 유니코드(UTF-8) 배열로 변환; Unicode String to Array
영문 문자열과 달리, 한글 문자열을 unpack 함수로 한 글자씩 분리하여 배열로 만들려면 잘 되지 않습니다. 한글 완성형(CP949;euc-kr)이 아닌, 유니코드(UTF-8) 인코딩을 사용해야 합니다.
영문 문자열을 한 글자씩 처리하는 법은 여기에 있습니다: ▶▶ Perl 펄] unpack pack 함수, 문자열을 1글자씩 처리, 배열로 변환
아래의 소스는 한글이나 일본어/중문 등의 2바이트 문자를 다루는 것입니다.
유니코드를 도스창(콘솔)/터미널 화면에 직접 출력하는 것은 불안정하기에, 화면이 아닌 out.txt 라는 파일로 결과를 저장합니다. 출력 파일인 out.txt 파일도 유니코드(UTF-8) 인코딩입니다.
파일명: example.pl
이 소스 파일은 "유니코드(UTF-8)" 인코딩으로 저장해야 합니다. 그렇지 않으면 Malformed UTF-8 character... 같은 에러가 납니다.
※ 아래 박스 클릭 후, 키보드 화살표 키로 좌우 스크롤 가능함
unpack 과 pack 함수의 "U*" 라는 옵션은 유니코드로 처리하라는 뜻입니다.
생성된 out.txt 파일 (UTF-8) 의 내용:
영문 문자열을 한 글자씩 처리하는 법은 여기에 있습니다: ▶▶ Perl 펄] unpack pack 함수, 문자열을 1글자씩 처리, 배열로 변환
아래의 소스는 한글이나 일본어/중문 등의 2바이트 문자를 다루는 것입니다.
유니코드를 도스창(콘솔)/터미널 화면에 직접 출력하는 것은 불안정하기에, 화면이 아닌 out.txt 라는 파일로 결과를 저장합니다. 출력 파일인 out.txt 파일도 유니코드(UTF-8) 인코딩입니다.
한글 한 글자씩 분리하여 배열로 변환 예제
파일명: example.pl
이 소스 파일은 "유니코드(UTF-8)" 인코딩으로 저장해야 합니다. 그렇지 않으면 Malformed UTF-8 character... 같은 에러가 납니다.
※ 아래 박스 클릭 후, 키보드 화살표 키로 좌우 스크롤 가능함
#!/usr/bin/perl
use strict; use warnings;
use utf8;
open OUT, ">:encoding(UTF-8)", "out.txt" or die "$!\n";
####################################################
## 유니코드 한글 문자열을 배열로 변환
#
my $s = "똠방각하"; # 문자열 정의
# 한글 문자열을 1글자씩 분해하여 배열로 만들기
my @array = unpack "U*", $s;
# 배열 내용을 파일에 출력 (1글자씩 나옴)
print OUT chr($_), "-" foreach (@array);
print OUT "\n\n"; # 줄바꿈
####################################################
## 배열을 문자열로 변환
#
my $result = pack "U*", @array;
# 문자열을 파일에 출력
print OUT $result, "\n";
use strict; use warnings;
use utf8;
open OUT, ">:encoding(UTF-8)", "out.txt" or die "$!\n";
####################################################
## 유니코드 한글 문자열을 배열로 변환
#
my $s = "똠방각하"; # 문자열 정의
# 한글 문자열을 1글자씩 분해하여 배열로 만들기
my @array = unpack "U*", $s;
# 배열 내용을 파일에 출력 (1글자씩 나옴)
print OUT chr($_), "-" foreach (@array);
print OUT "\n\n"; # 줄바꿈
####################################################
## 배열을 문자열로 변환
#
my $result = pack "U*", @array;
# 문자열을 파일에 출력
print OUT $result, "\n";
unpack 과 pack 함수의 "U*" 라는 옵션은 유니코드로 처리하라는 뜻입니다.
생성된 out.txt 파일 (UTF-8) 의 내용:
똠-방-각-하-
똠방각하
똠방각하
tag: perl
Perl | 펄
<< Home