mwultong Blog ... 프로그래밍 / 계산기

컴퓨터 엑셀 워드 포토샵 구글어스 WINDOWS JAVASCRIPT JAVA C++

 
Thursday, January 04, 2007

Perl/펄] 유니코드 파일 정렬(텍스트 소트,소팅); Unicode UTF-8 Text File Sort


아스키 파일 즉 한글 완성형 파일이 아닌, 유니코드(UTF-8) 파일을 정렬하여, 다시 UTF-8파일로 출력하는 방법입니다.

UTF-8 텍스트 파일 정렬 예제 프로그램


(다음 소스를, 유니코드가 아닌, 그냥 아스키 파일로 저장합니다.)
파일명: 0.pl
※ 아래 박스 클릭 후, 키보드 화살표 키로 좌우 스크롤 가능함
#!/usr/bin/perl
use strict; use warnings;

  # 입력 파일 지정하지 않으면, 도움말 출력하고 종료
  die "소트할 텍스트 파일명을 입력하십시오.\n" if $#ARGV == -1;


  # 입출력 파일, 유니코드로 열기
  open  IN, "<:encoding(UTF-8)",  $ARGV[0] or die "$!\n";
  open OUT, ">:encoding(UTF-8)", "out.txt" or die "$!\n";


  my @in = <IN>;   # 원본 입력 파일 전체를, 하나의 배열로 만들기
  chomp @in;       # 각 행 끝의 개행문자 제거


  # 소트
  @in = sort { lc($a) cmp lc($b) } @in;


  # 유니코드 파일로 출력
  print OUT "$_\n" foreach(@in);


  # 파일 닫기
  close IN; close OUT;


테스트용 파일:
(이 내용을, test.txt 라는 이름의, UTF-8 인코딩의 파일로 저장합니다.)
BBB
다다다
AAA
나나나
ZZZ
CCC
aaa
가가가



이제 도스창(정식명칭은 '명령 프롬프트';CMD.EXE) 등에서

0.pl test.txt

이렇게 실행하면, "현재 디렉토리"에 out.txt 라는 "UTF-8 유니코드" 파일이 생성되고, 그 파일을 열어 보면 다음과 같이 정렬되어 있을 것입니다.

AAA
aaa
BBB
CCC
ZZZ
가가가
나나나
다다다



대소문자를 구분하여 정렬하려면
@in = sort { lc($a) cmp lc($b) } @in;
위의 코드를

@in = sort @in;
이렇게 바꾸면 됩니다.



▶▶ 펄/Perl] 문자열 배열 정렬(소팅), sort 함수 사용법: Sort String Array




tag: perl
Perl | 펄

0 Comments:

<< Home RSS 2.0 feed

구글 Google 에서 제공하는 무료 블로그 서비스인 블로거 Blogger 의 인터넷 주소는 www.blogger.com 입니다. Blogger 에 블로그를 만들면, blogspot.com 이라는 주소에 블로그가 생성됩니다.
블로그를 직접 방문하지 않고도 최신 게시물을 구독하려면 RSS 2.0 feed 주소를 리더기에 등록하시면 됩니다.
Previous Posts
Monthly Archives
Top