Thursday, January 04, 2007
Perl/펄] 유니코드 파일 정렬(텍스트 소트,소팅); Unicode UTF-8 Text File Sort
아스키 파일 즉 한글 완성형 파일이 아닌, 유니코드(UTF-8) 파일을 정렬하여, 다시 UTF-8파일로 출력하는 방법입니다.
(다음 소스를, 유니코드가 아닌, 그냥 아스키 파일로 저장합니다.)
파일명: 0.pl
※ 아래 박스 클릭 후, 키보드 화살표 키로 좌우 스크롤 가능함
테스트용 파일:
(이 내용을, test.txt 라는 이름의, UTF-8 인코딩의 파일로 저장합니다.)
이제 도스창(정식명칭은 '명령 프롬프트';CMD.EXE) 등에서
0.pl test.txt
이렇게 실행하면, "현재 디렉토리"에 out.txt 라는 "UTF-8 유니코드" 파일이 생성되고, 그 파일을 열어 보면 다음과 같이 정렬되어 있을 것입니다.
대소문자를 구분하여 정렬하려면
@in = sort { lc($a) cmp lc($b) } @in;
위의 코드를
@in = sort @in;
이렇게 바꾸면 됩니다.
▶▶ 펄/Perl] 문자열 배열 정렬(소팅), sort 함수 사용법: Sort String Array
UTF-8 텍스트 파일 정렬 예제 프로그램
(다음 소스를, 유니코드가 아닌, 그냥 아스키 파일로 저장합니다.)
파일명: 0.pl
※ 아래 박스 클릭 후, 키보드 화살표 키로 좌우 스크롤 가능함
#!/usr/bin/perl
use strict; use warnings;
# 입력 파일 지정하지 않으면, 도움말 출력하고 종료
die "소트할 텍스트 파일명을 입력하십시오.\n" if $#ARGV == -1;
# 입출력 파일, 유니코드로 열기
open IN, "<:encoding(UTF-8)", $ARGV[0] or die "$!\n";
open OUT, ">:encoding(UTF-8)", "out.txt" or die "$!\n";
my @in = <IN>; # 원본 입력 파일 전체를, 하나의 배열로 만들기
chomp @in; # 각 행 끝의 개행문자 제거
# 소트
@in = sort { lc($a) cmp lc($b) } @in;
# 유니코드 파일로 출력
print OUT "$_\n" foreach(@in);
# 파일 닫기
close IN; close OUT;
use strict; use warnings;
# 입력 파일 지정하지 않으면, 도움말 출력하고 종료
die "소트할 텍스트 파일명을 입력하십시오.\n" if $#ARGV == -1;
# 입출력 파일, 유니코드로 열기
open IN, "<:encoding(UTF-8)", $ARGV[0] or die "$!\n";
open OUT, ">:encoding(UTF-8)", "out.txt" or die "$!\n";
my @in = <IN>; # 원본 입력 파일 전체를, 하나의 배열로 만들기
chomp @in; # 각 행 끝의 개행문자 제거
# 소트
@in = sort { lc($a) cmp lc($b) } @in;
# 유니코드 파일로 출력
print OUT "$_\n" foreach(@in);
# 파일 닫기
close IN; close OUT;
테스트용 파일:
(이 내용을, test.txt 라는 이름의, UTF-8 인코딩의 파일로 저장합니다.)
BBB
다다다
AAA
나나나
ZZZ
CCC
aaa
가가가
다다다
AAA
나나나
ZZZ
CCC
aaa
가가가
이제 도스창(정식명칭은 '명령 프롬프트';CMD.EXE) 등에서
0.pl test.txt
이렇게 실행하면, "현재 디렉토리"에 out.txt 라는 "UTF-8 유니코드" 파일이 생성되고, 그 파일을 열어 보면 다음과 같이 정렬되어 있을 것입니다.
AAA
aaa
BBB
CCC
ZZZ
가가가
나나나
다다다
aaa
BBB
CCC
ZZZ
가가가
나나나
다다다
대소문자를 구분하여 정렬하려면
@in = sort { lc($a) cmp lc($b) } @in;
위의 코드를
@in = sort @in;
이렇게 바꾸면 됩니다.
▶▶ 펄/Perl] 문자열 배열 정렬(소팅), sort 함수 사용법: Sort String Array
tag: perl
Perl | 펄
<< Home