크롤링과 파싱이란?
많은 사람들이 크롤링과 파싱을 혼용해서 쓰는 경우가 있습니다. 두 단어 사이에는 밀접한 관계는 있지만 뜻은 전혀 다릅니다.
크롤링은 프로그래밍 단계에서 웹페이지를 불러오는 것을 말합니다. 정확한 표현이라고 할수는 없지만 좁은 의미에서 일반적으로 웹서버에서 html 소스나 이미지 등을 다운로드 하는것을 의미합니다. html 소스는 문자열로 이루어져 있습니다.
파싱은 문자열을 원하는대로 가공하거나 추출하는 것을 의미합니다. 이 책에서는 “추출”하는것으로 의미를 정하겠습니다.
크게 구분할 필요는 없기만 하지만 단어의 의미는 알고 있는게 좋겠지요.
[출처 : 핵탐]