mwultong Blog ... 프로그래밍 / 계산기

컴퓨터 엑셀 워드 포토샵 구글어스 WINDOWS JAVASCRIPT JAVA C++

 
Friday, September 15, 2006

한글 정규식] 유니코드 한글 낱자, 자모 모두 찾기/매치/추출; Regex Hangul Korean


정규식은 유니코드로 한글을 처리할 수 있습니다. 다음은, 텍스트 파일 속의 모든 한글을 매치시키는 정규식입니다. 한글만 추출하는 용도로 사용할 수도 있습니다.

EmEditor (유니코드 편집기) 에서의 사용법


* EmEditor에서, Ctrl+F키로, "찾기" 대화상자를 연 후, Use Regular Expressions 옵션에 체크하고

[\x{3131}-\x{318E}]|[\x{AC00}-\x{D7A3}]


* 입력창에 위와 같이 입력하면, 현재 문서의 모든 한글 글자와 ㄱㄴㄷㄹ ㅏㅑㅓㅕ 등의 자모들이 선택됩니다. (실제로는 맨 처음의 한글에만 매치됩니다.)

* 정규식 사용이 끝났으면, Use Regular Expressions 옵션을 OFF 하는 것이 좋습니다.




울트라에디터에서의 사용법


* 울트라에디트(UltraEdit)는 버전이 반드시 v12.10b 이상이어야 합니다.

* 다음 게시물의 방법대로, "펄 호환 정규식 엔진"을 설정합니다: ▶▶ 울트라에디트 정규식 설정/종류 - UltraEdit-32 Regex 울트라 에디터 정규표현식

* 정규식으로 한글 글자를 찾을 텍스트 파일이, 반드시 유니코드여야 합니다. EmEditor는 완성형 한글도 내부적으로 유니코드로 변환하여 처리하지만, 울트라에디터에서는, 일반 완성형 텍스트는 한글 정규식이 먹히지 않는군요.

* Ctrl+F키로, "찾기" 대화상자를 연 후, Regular Expressions 옵션에 체크하고

[\x{3131}-\x{318E}]|[\x{AC00}-\x{D7A3}]


입력창에 역시 위와 같이 입력하면, 현재 문서의 모든 한글 글자와 ㄱㄴㄷㄹ ㅏㅑㅓㅕ 등의 자모들이 매치됩니다.

* 정규식 사용이 끝났으면, Regular Expressions 옵션을 OFF 하는 것이 좋습니다.




▶▶ [유니코드] 한글 음절과 자모의 영역/주소 - Unicode Hangul Code Point Map




tag: editor
텍스트 에디터 | 문서 편집기 | Text Editor
tag: regex
정규식 | 정규표현식 | Regex | Regular Expression

2 Comments:
At May 30, 2007 at 1:49 PM, Blogger 듬뿍 said...

pcregrep을 사용하는 방법이 있습니다.

unicode로 되어있고, utf8를 지원한다고 했을때, 다음처럼 하면 되네요.

pcregrep -r -n "[\xe0-\xef].."

utf8이니까 첫글자가 1110xxxx로 되어야 하니까, 위처럼 동작할 수 있습니다.

꼭 한글만 나오지는 않겠지요??

 
At May 30, 2007 at 3:53 PM, Blogger mwultong said...

강력한 명령어군요.

좋은 정보 감사합니다.

^_^)

 

Post a Comment

<< Home RSS 2.0 feed

구글 Google 에서 제공하는 무료 블로그 서비스인 블로거 Blogger 의 인터넷 주소는 www.blogger.com 입니다. Blogger 에 블로그를 만들면, blogspot.com 이라는 주소에 블로그가 생성됩니다.
블로그를 직접 방문하지 않고도 최신 게시물을 구독하려면 RSS 2.0 feed 주소를 리더기에 등록하시면 됩니다.
Previous Posts
Monthly Archives
Top