컴퓨터 엑셀 워드 포토숍 구글어스 WINDOWS JAVASCRIPT JAVA C++

 
Previous Post Perl/펄] 한글 유니코드 코드 값(번호) 구하기 함수; Hangul Unicode Co...Perl/펄] 달러;$ 골뱅이;@ 퍼센트;% 샤프;# 특수 기호 의미 사용법 예제Perl 펄] 배열 사이즈 구하기; 배열 크기/길이 얻는 함수; Array SizePerl/펄] 한글 글자 개수, 바이트 수 (UTF-8 유니코드 문자열) 구하기; Unic...Perl/펄] 문자열 길이, 사이즈(글자 수/바이트 수) 구하기; String Length...Python/파이썬] 주석 기호, 주석문 표현, 블록 코멘트; Block Comment R...Excel/엑셀] 문자열 찾기(Find)/바꾸기, 동시에 모두 검색, 문자 한꺼번에 치환(...윈도우 메모장, 줄바꿈 문자(Newline) 종류, 개행문자(CR-LF)란? - Windo...엑셀/Excel] VBA매크로: 알파벳 A-Z 까지 무작위 랜덤 문자 출력; Random ...CMD 확장자 파일 만들기, CMD.EXE로, 파일(File) 만들기/저장(Save)하기

Perl/펄] 유니코드 파일 정렬(텍스트 소트,소팅); Unicode UTF-8 Text File Sort

Thursday, January 04, 2007

아스키 파일 즉 한글 완성형 파일이 아닌, 유니코드(UTF-8) 파일을 정렬하여, 다시 UTF-8파일로 출력하는 방법입니다.


UTF-8 텍스트 파일 정렬 예제 프로그램


(다음 소스를, 유니코드가 아닌, 그냥 아스키 파일로 저장합니다.)
파일명: 0.pl
#!/usr/bin/perl
use strict; use warnings;

  # 입력 파일 지정하지 않으면, 도움말 출력하고 종료
  die "소트할 텍스트 파일명을 입력하십시오.\n" if $#ARGV == -1;


  # 입출력 파일, 유니코드로 열기
  open  IN, "<:encoding(UTF-8)",  $ARGV[0] or die "$!\n";
  open OUT, ">:encoding(UTF-8)", "out.txt" or die "$!\n";


  my @in = <IN>;   # 원본 입력 파일 전체를, 하나의 배열로 만들기
  chomp @in;       # 각 행 끝의 개행문자 제거


  # 소트
  @in = sort { lc($a) cmp lc($b) } @in;


  # 유니코드 파일로 출력
  print OUT "$_\n" foreach(@in);


  # 파일 닫기
  close IN; close OUT;


테스트용 파일:
(이 내용을, test.txt 라는 이름의, UTF-8 인코딩의 파일로 저장합니다.)
BBB
다다다
AAA
나나나
ZZZ
CCC
aaa
가가가



이제 도스창(명령 프롬프트;CMD.EXE) 등에서

0.pl test.txt

이렇게 실행하면, "현재 디렉토리"에 out.txt 라는 "UTF-8 유니코드" 파일이 생성되고, 그 파일을 열어 보면 다음과 같이 정렬되어 있을 것입니다.

AAA
aaa
BBB
CCC
ZZZ
가가가
나나나
다다다



대소문자를 구분하여 정렬하려면
@in = sort { lc($a) cmp lc($b) } @in;
위의 코드를

@in = sort @in;
이렇게 바꾸면 됩니다.



▶▶ 펄/Perl] 문자열 배열 정렬(소팅), sort 함수 사용법: Sort String Array

0 Comments:

Post a Comment

<< Home RSS 2.0 feed

구글 Google 에서 제공하는 무료 블로그 서비스인 블로거 Blogger 의 인터넷 주소는 www.blogger.com 입니다. Blogger 에 블로그를 만들면, blogspot.com 이라는 주소에 블로그가 생성됩니다.
블로그를 직접 방문하지 않고도 최신 게시물을 구독하려면 RSS 2.0 feed 주소를 리더기에 등록하시면 됩니다.
Categories
Previous Posts
Monthly Archives
Top