컴퓨터 엑셀 워드 포토숍 구글어스 WINDOWS JAVASCRIPT JAVA C++

 
Previous Post Java/자바] Math.random() 사용법; 랜덤(난수) 정수(int) 구하기 예제 ...가우시안/가우스 랜덤/정규 분포 난수 구하기 함수 예제; C-자바-Perl-VBA; Gau...C언어 VC++] 가우시안 랜덤 난수 발생; 가우스 분포 Gaussian Random Nu...자바/Java] 가우시안(가우스;Gaussian) 난수 자체 구현; Gauss Random...Perl/펄] 가우스 난수/가우시안 랜덤 발생 함수; Gaussian RandomExcel/엑셀] 가우스 난수/가우시안 랜덤 발생 함수; Gaussian Random VB...CMD 란? CMD.EXE 실행하는 법; WINDOWS XP가야금 연주 MIDI 파일 만들기 (미디; mid) お琴 - Koto, OkotoJava/자바] 한글 euc-kr (MS949) 파일을, 유니코드(UTF-8)로 변환 프로...Java/자바] 한글 확장 완성형; MS949 / cp949 인코딩(Encoding) 문제...

PHP] HTML 본문 텍스트 추출, 태그 제거; HTML to TEXT; Strip Tags

Monday, November 27, 2006

원래는 정규식이나 Perl 로, HTML에서 텍스트 추출, 즉 "태그 삭제"를 해보려고 했는데, 아무리 해도 되지 않았습니다. 물론 간단하고 잘 정돈된 HTML 파일은 추출이 되는데, 좀 복잡하고 오류가 있거나 비표준이거나, 또는 태그 사이에 줄바꿈이 있다거나 하면 추출하지 못했습니다.


PHP 로 해보았더니 비교적 잘 되었습니다. 그렇지만 완벽하지는 않고, CSS 선언 부분을 제거하지 못하는 등의 문제는 여전히 있었습니다.

HTML 전문 언어인 PHP로도 어려운 걸 보니, 역시 본문 추출이라는 것이 보통 일이 아닌 것 같습니다.

HTML2TXT: HTML 웹문서의 TAG 지우고 본문만 남기기


파일명: strip_tags.php
<?php

  $s = strip_tags(join('',file($argv[1])));
  print $s;

?>


PHP를 설치한 후(여기서는 윈도우용을 설치했음), 도스창(명령 프롬프트;CMD.EXE)에서

php strip_tags.php test.html

이렇게 해주면, test.html 이라는 파일에서 본문만 추출되어 화면으로 출력됩니다.


추출 결과를 텍스트 파일로 저장하기 위해서는

php strip_tags.php test.html > out.txt

이렇게 하면 됩니다.




수동으로 태그 삭제 방법


웹 브라우저에서 HTML 파일을 부른 후, Ctrl+A 키를 누르면 전체 텍스트가 선택됩니다.

Ctrl+C 키를 눌러 복사한 후, 메모장 등의 편집기에서 Ctrl+V 키로 붙여 넣으면, 본문만 추출됩니다.

가장 원시적인 방법이지만, 가장 완벽하게 텍스트 추출을 할 수 있습니다.




또는 브라우저의,

메뉴: 파일 > 다른 이름으로 저장

에서, "모든 웹 페이지(*.htm;*.html)" 가 아닌
"텍스트 파일(*.txt)" 를 선택하면, 태그가 제거된 텍스트만 저장됩니다.





0 Comments:

Post a Comment

<< Home RSS 2.0 feed

구글 Google 에서 제공하는 무료 블로그 서비스인 블로거 Blogger 의 인터넷 주소는 www.blogger.com 입니다. Blogger 에 블로그를 만들면, blogspot.com 이라는 주소에 블로그가 생성됩니다.
블로그를 직접 방문하지 않고도 최신 게시물을 구독하려면 RSS 2.0 feed 주소를 리더기에 등록하시면 됩니다.
Categories
Previous Posts
Monthly Archives
Top