Friday, September 15, 2006
한글 정규식] 유니코드 한글 낱자, 자모 모두 찾기/매치/추출; Regex Hangul Korean
정규식은 유니코드로 한글을 처리할 수 있습니다. 다음은, 텍스트 파일 속의 모든 한글을 매치시키는 정규식입니다. 한글만 추출하는 용도로 사용할 수도 있습니다.
* EmEditor에서, Ctrl+F키로, "찾기" 대화상자를 연 후, Use Regular Expressions 옵션에 체크하고
* 입력창에 위와 같이 입력하면, 현재 문서의 모든 한글 글자와 ㄱㄴㄷㄹ ㅏㅑㅓㅕ 등의 자모들이 선택됩니다. (실제로는 맨 처음의 한글에만 매치됩니다.)
* 정규식 사용이 끝났으면, Use Regular Expressions 옵션을 OFF 하는 것이 좋습니다.
* 울트라에디트(UltraEdit)는 버전이 반드시 v12.10b 이상이어야 합니다.
* 다음 게시물의 방법대로, "펄 호환 정규식 엔진"을 설정합니다: ▶▶ 울트라에디트 정규식 설정/종류 - UltraEdit-32 Regex 울트라 에디터 정규표현식
* 정규식으로 한글 글자를 찾을 텍스트 파일이, 반드시 유니코드여야 합니다. EmEditor는 완성형 한글도 내부적으로 유니코드로 변환하여 처리하지만, 울트라에디터에서는, 일반 완성형 텍스트는 한글 정규식이 먹히지 않는군요.
* Ctrl+F키로, "찾기" 대화상자를 연 후, Regular Expressions 옵션에 체크하고
입력창에 역시 위와 같이 입력하면, 현재 문서의 모든 한글 글자와 ㄱㄴㄷㄹ ㅏㅑㅓㅕ 등의 자모들이 매치됩니다.
* 정규식 사용이 끝났으면, Regular Expressions 옵션을 OFF 하는 것이 좋습니다.
▶▶ [유니코드] 한글 음절과 자모의 영역/주소 - Unicode Hangul Code Point Map
EmEditor (유니코드 편집기) 에서의 사용법
* EmEditor에서, Ctrl+F키로, "찾기" 대화상자를 연 후, Use Regular Expressions 옵션에 체크하고
[\x{3131}-\x{318E}]|[\x{AC00}-\x{D7A3}]
* 입력창에 위와 같이 입력하면, 현재 문서의 모든 한글 글자와 ㄱㄴㄷㄹ ㅏㅑㅓㅕ 등의 자모들이 선택됩니다. (실제로는 맨 처음의 한글에만 매치됩니다.)
* 정규식 사용이 끝났으면, Use Regular Expressions 옵션을 OFF 하는 것이 좋습니다.
울트라에디터에서의 사용법
* 울트라에디트(UltraEdit)는 버전이 반드시 v12.10b 이상이어야 합니다.
* 다음 게시물의 방법대로, "펄 호환 정규식 엔진"을 설정합니다: ▶▶ 울트라에디트 정규식 설정/종류 - UltraEdit-32 Regex 울트라 에디터 정규표현식
* 정규식으로 한글 글자를 찾을 텍스트 파일이, 반드시 유니코드여야 합니다. EmEditor는 완성형 한글도 내부적으로 유니코드로 변환하여 처리하지만, 울트라에디터에서는, 일반 완성형 텍스트는 한글 정규식이 먹히지 않는군요.
* Ctrl+F키로, "찾기" 대화상자를 연 후, Regular Expressions 옵션에 체크하고
[\x{3131}-\x{318E}]|[\x{AC00}-\x{D7A3}]
입력창에 역시 위와 같이 입력하면, 현재 문서의 모든 한글 글자와 ㄱㄴㄷㄹ ㅏㅑㅓㅕ 등의 자모들이 매치됩니다.
* 정규식 사용이 끝났으면, Regular Expressions 옵션을 OFF 하는 것이 좋습니다.
▶▶ [유니코드] 한글 음절과 자모의 영역/주소 - Unicode Hangul Code Point Map
tag: editor
텍스트 에디터 | 문서 편집기 | Text Editor
tag: regex
정규식 | 정규표현식 | Regex | Regular Expression
pcregrep을 사용하는 방법이 있습니다.
unicode로 되어있고, utf8를 지원한다고 했을때, 다음처럼 하면 되네요.
pcregrep -r -n "[\xe0-\xef].."
utf8이니까 첫글자가 1110xxxx로 되어야 하니까, 위처럼 동작할 수 있습니다.
꼭 한글만 나오지는 않겠지요??
강력한 명령어군요.
좋은 정보 감사합니다.
^_^)
<< Home