Saturday, December 23, 2006
Python/파이썬] 아스키 문자열을 유니코드 문자열로 변환 함수; ASCII String to Unicode String
unicode() 라는 함수를 사용하면 아스키 문자열을 유니코드 문자열로 변환할 수 있습니다.
unicode(변환할 아스키 문자열, 아스키 문자열의 인코딩)
형식입니다. "똠방각하" 등을 표현할 수 있는 "한글 확장 완성형"의 인코딩은 949 입니다. 따라서 뒤쪽 인수를 "949" 라고 문자열로서 적어주면 됩니다. 또는 "cp949" 또는 "ms949" 라고 지정해도 됩니다.
※ 아래 박스 클릭 후, 키보드 화살표 키로 좌우 스크롤 가능함
문자열 상수, 즉 리터럴을 표현할 때에는
u"안녕ABC"
이렇게 앞에 u 라는 접두사를 붙이면 됩니다.
▶▶ Python/파이썬] 문자열 길이 구하기 함수/유니코드 문자열 글자 수; Get String Length, Unicode Size
unicode(변환할 아스키 문자열, 아스키 문자열의 인코딩)
형식입니다. "똠방각하" 등을 표현할 수 있는 "한글 확장 완성형"의 인코딩은 949 입니다. 따라서 뒤쪽 인수를 "949" 라고 문자열로서 적어주면 됩니다. 또는 "cp949" 또는 "ms949" 라고 지정해도 됩니다.
아스키 문자열을, 유니코드 문자열로 변환 예제
※ 아래 박스 클릭 후, 키보드 화살표 키로 좌우 스크롤 가능함
#!/usr/bin/python
# -*- coding: 949 -*-
s = "안녕ABC"
print len(s)
# 글자 개수 출력 결과: 7
# 유니코드가 아닌 아스키 문자열이기에
# 한글은 2바이트로 간주
# 유니코드 문자열로 변환
s = unicode(s, "949")
print s
# 출력 결과: 안녕ABC
print len(s)
# 글자 개수 출력 결과: 5
# 유니코드 문자열이기에, 한글/영문 관계 없이 항상 1글자로 취급
# -*- coding: 949 -*-
s = "안녕ABC"
print len(s)
# 글자 개수 출력 결과: 7
# 유니코드가 아닌 아스키 문자열이기에
# 한글은 2바이트로 간주
# 유니코드 문자열로 변환
s = unicode(s, "949")
print s
# 출력 결과: 안녕ABC
print len(s)
# 글자 개수 출력 결과: 5
# 유니코드 문자열이기에, 한글/영문 관계 없이 항상 1글자로 취급
문자열 상수, 즉 리터럴을 표현할 때에는
u"안녕ABC"
이렇게 앞에 u 라는 접두사를 붙이면 됩니다.
▶▶ Python/파이썬] 문자열 길이 구하기 함수/유니코드 문자열 글자 수; Get String Length, Unicode Size
tag: python
Python | 파이썬
<< Home