Tuesday, May 16, 2006
지금까지의 게시물을 원고지 분량으로 환산하면 약 1400매
55,805 2005_12_01_archive.html
234,148 2006_01_01_archive.html
248,824 2006_02_01_archive.html
301,098 2006_03_01_archive.html
455,399 2006_04_01_archive.html
173,264 2006_05_01_archive.html
위의 6개 아카이브 파일을 하드에 저장한 용량은
1.40MB (1,468,538 바이트)
그런데 이 파일에는 중복되는 텍스트들이 많이 있다. 예를 들어 메뉴의 일부 같은 것이 섞여 있다. 그래서 중복되고 무의미한 부분을 모두 제거하니 685KB (701,582 바이트) 가 되었다. 절반 이하로 줄었다.
그리고 위의 아카이브 파일들은 유니코드(UTF-8)다. 같은 분량의 텍스트라도, 유니코드로 인코딩하면 그냥 한국어 인코딩 즉 euc-kr 에 비해 크다. 위의 685KB 짜리 유니코드 파일을 euc-kr로 변환해 주었더니 528KB (541,540 바이트)로 줄어들었다. (생각보다 그리 많이 줄지는 않았다.)
결국 위의 아카이브 파일들이 가진 내용의 총 크기는 528KB 였다. 그런데 이 크기를 원고지로 환산하면 얼마가 될지 궁금했다. euc-kr 인코딩으로된 500KB 정도의 텍스트 파일은 원고지로는 1000장 정도가 되지 않을까 싶었다.
euc-kr로 변환된 528KB 의 텍스트 파일을 '모두 선택 (Select All)'하여 MS워드에 붙여넣고, <원고지 분량 계산 매크로>를 실행해 보았다. (이 매크로는 단어 수만 계산하기에 인코딩은 상관이 없고, 685KB 짜리 유니코드 파일로 계산해도 똑같은 결과가 나왔음):
---------------------------
원고지 매수 계산
---------------------------
단어수: 69,052 개
원고지: 1438.6 장
약 1400매였다. 의외로 많았다. 원래 장편소설 한 권의 분량이 평균적으로 1000매 (± 300매) 정도이므로, 장편소설을 한 권 쓴 셈.
아래아한글(HWP)에서는 2405.6 장으로 계산되었다. 무려 1000장(정확히는 967장)이 늘어난 것이고 엄청난 오차라서 잠시 당혹했다. 설마 상용 프로그램인 아래아한글의 오류는 아니겠고, 필자가 만든 그 MS워드 매크로의 오류일까?
그런데 필자가 지금까지 쓴 게시물이 도저히 원고지 2405매 분량이 될 수는 없었다. 왜냐하면 텍스트 파일로는 1MB도 채 되지 않는 크기이기 때문이다. 그리고 필자의 '느낌'으로도 책 2권 분량의 블로깅을 했다고는 여겨지지 않았다.
곧 왜 그런지를 알게 되었다. 필자의 게시물을 모두 합친 텍스트 파일 즉 아까 그 528KB 짜리 파일에는 엄청나게 많은 빈 줄들이 들어 있다. 블로그의 가독성을 높이기 위해, 문단 사이에 빈 줄을 여러 개 삽입하기도 했고, 웹페이지에서 텍스트 파일로 카피해 오는 과정에서 많은 빈 줄들이 새로 추가되기도 했었다. 가령 그림이 있는 부분을 카피하면 그 그림이 있을 자리가 여러 개로 빈 줄로 대체된다.
위에서 언급한 MS워드 매크로는, 각 문단 사이에 빈 줄이 딱 1개만 들어 있는 것으로 간주한다. (문단 사이에는 빈 줄이 하나도 없거나 1개만 있는 것이 일반적이기 때문.) 실제 빈 줄이 몇 개이든 상관하지 않는다. 그러나 아래아한글은 실제의 빈 줄들을 하나도 빠짐없이 모두 원고지 분량에 포함시킨다. 그래서 그러한 차이가 났던 것이었고 오류는 아니었다.
※ 물론 그림 공간도 원고 분량에 포함시켜야 하지만, 위의 매크로는 원래 소설용으로 만든 것이라서 순수한 텍스트 분량만 계산함.
단어 수, 200자 원고지 장수, 줄 수 계산기: ▶▶ 단어수 세기, 200자 원고지 매수 계산, 줄수 행 개수; Word Counter
234,148 2006_01_01_archive.html
248,824 2006_02_01_archive.html
301,098 2006_03_01_archive.html
455,399 2006_04_01_archive.html
173,264 2006_05_01_archive.html
위의 6개 아카이브 파일을 하드에 저장한 용량은
1.40MB (1,468,538 바이트)
그런데 이 파일에는 중복되는 텍스트들이 많이 있다. 예를 들어 메뉴의 일부 같은 것이 섞여 있다. 그래서 중복되고 무의미한 부분을 모두 제거하니 685KB (701,582 바이트) 가 되었다. 절반 이하로 줄었다.
그리고 위의 아카이브 파일들은 유니코드(UTF-8)다. 같은 분량의 텍스트라도, 유니코드로 인코딩하면 그냥 한국어 인코딩 즉 euc-kr 에 비해 크다. 위의 685KB 짜리 유니코드 파일을 euc-kr로 변환해 주었더니 528KB (541,540 바이트)로 줄어들었다. (생각보다 그리 많이 줄지는 않았다.)
결국 위의 아카이브 파일들이 가진 내용의 총 크기는 528KB 였다. 그런데 이 크기를 원고지로 환산하면 얼마가 될지 궁금했다. euc-kr 인코딩으로된 500KB 정도의 텍스트 파일은 원고지로는 1000장 정도가 되지 않을까 싶었다.
euc-kr로 변환된 528KB 의 텍스트 파일을 '모두 선택 (Select All)'하여 MS워드에 붙여넣고, <원고지 분량 계산 매크로>를 실행해 보았다. (이 매크로는 단어 수만 계산하기에 인코딩은 상관이 없고, 685KB 짜리 유니코드 파일로 계산해도 똑같은 결과가 나왔음):
---------------------------
원고지 매수 계산
---------------------------
단어수: 69,052 개
원고지: 1438.6 장
약 1400매였다. 의외로 많았다. 원래 장편소설 한 권의 분량이 평균적으로 1000매 (± 300매) 정도이므로, 장편소설을 한 권 쓴 셈.
아래아한글2005에서 원고지 매수 계산
아래아한글(HWP)에서는 2405.6 장으로 계산되었다. 무려 1000장(정확히는 967장)이 늘어난 것이고 엄청난 오차라서 잠시 당혹했다. 설마 상용 프로그램인 아래아한글의 오류는 아니겠고, 필자가 만든 그 MS워드 매크로의 오류일까?
그런데 필자가 지금까지 쓴 게시물이 도저히 원고지 2405매 분량이 될 수는 없었다. 왜냐하면 텍스트 파일로는 1MB도 채 되지 않는 크기이기 때문이다. 그리고 필자의 '느낌'으로도 책 2권 분량의 블로깅을 했다고는 여겨지지 않았다.
곧 왜 그런지를 알게 되었다. 필자의 게시물을 모두 합친 텍스트 파일 즉 아까 그 528KB 짜리 파일에는 엄청나게 많은 빈 줄들이 들어 있다. 블로그의 가독성을 높이기 위해, 문단 사이에 빈 줄을 여러 개 삽입하기도 했고, 웹페이지에서 텍스트 파일로 카피해 오는 과정에서 많은 빈 줄들이 새로 추가되기도 했었다. 가령 그림이 있는 부분을 카피하면 그 그림이 있을 자리가 여러 개로 빈 줄로 대체된다.
위에서 언급한 MS워드 매크로는, 각 문단 사이에 빈 줄이 딱 1개만 들어 있는 것으로 간주한다. (문단 사이에는 빈 줄이 하나도 없거나 1개만 있는 것이 일반적이기 때문.) 실제 빈 줄이 몇 개이든 상관하지 않는다. 그러나 아래아한글은 실제의 빈 줄들을 하나도 빠짐없이 모두 원고지 분량에 포함시킨다. 그래서 그러한 차이가 났던 것이었고 오류는 아니었다.
※ 물론 그림 공간도 원고 분량에 포함시켜야 하지만, 위의 매크로는 원래 소설용으로 만든 것이라서 순수한 텍스트 분량만 계산함.
단어 수, 200자 원고지 장수, 줄 수 계산기: ▶▶ 단어수 세기, 200자 원고지 매수 계산, 줄수 행 개수; Word Counter
tag: blogger
블로거 | 구글블로그 | Blogger.com + blogspot.com
<< Home