크롤링
많은 사람들이 코딩에 관심을 가지게 되면서 자신만의 서비스를 만들고 싶어하는 사람도 많아졌다. 혹은 반대로 자신만의 서비스를 만들고 싶어 코딩에 관심을 가지게 된사람도 있을 것이다. 어떠한 주제이던지 그 주제에 관한 정보들이 필요할 것인데 이를 웹상에서 일일이 검색하여 수집하는 것은 굉장히 힘든 작업이 될 것 이다. 크롤링이 이러한 문제를 해결해준다. 크롤링이란, 네이버 지식백과에 따르면
무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술. 어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키냐 하는 것이 우위를 결정하는 요소로서 최근 웹 검색의 중요성에 따라 발전되고 있다.
[네이버 지식백과] 크롤링 [crawling] (IT용어사전, 한국정보통신기술협회)
라고 하며 스크래핑 이라고도 한다.
하지만 사람이 일일이 수집하는것이 아니라 크롤러라는 소프트웨어가 대신하는데 스파이더, 봇.. 등등 이라고도 불린다. 우리가 사용하는 구글이나 네이버 같은 검색 엔진들도 이러한 봇들을 이용해 운영된다고 한다.
파이썬 크롤링
크롤링 분야에 있어서는 파이썬이 선두주자라고 한다. (자료참고 – 나무위키) 이유는 역시 쉬운 난이도와 다양한 라이브러리의 발달이다. 대표적인 라이브러리로는 Beautiful Soup가 있다. Beautiful Soup는 HTML 및 XML 문서를 크롤링하는 파이썬의 라이브러리로 보통의 경우 웹에서 많은 정보를 얻을 수 있으니 Beautiful Soup면 간단한 서비스를 제작할 수 있다.
나도 파이썬으로 알고리즘을 공부하던중 잘 안풀리고 해서 다시 흥미를 붙일겸 웹 크롤링을 해서 블로그 포스팅 키워드를 추천해주는 서비스를 만들어 보려고 한다. 사실 코딩을 한지 얼마 되지도 않았을 뿐더러 프로그램을 제작 하는것은 이번이 처음이라 쉽지만은 않을 것으로 생각된다. 구글과 유튜브 검색을 통해 많은 고수분들의 도움을 받아 천천이 공부해가며 제작하고 그 과정은 다시 정리해서 블로그에 담아 두도록 할 것이다.
업무자동화
업무자동화에 대해서도 들어본 적이 있을 것이다. 회사를 다녀본적은 없지만 행정, 회계등의 사무업무는 보통 엑셀을 활용한다고 들었다. 파이썬은 간단한 코드 몇줄로 엑셀 파일을 쉽게 만들고, 열고, 데이터를 입력하거나 읽고, 닫을 수 있다. 이는 위에 설명한 크롤링을 잘 이용하면 원하는 데이터를 쉽게 읽고, 분석하고, 새로운 파일을 만들거나 입력할 수 있다는 말이다. 인터넷과 여러 서비스가 필수가 되어버린 시대에 이를 조금이라도 활용할 수 있다면 꼭 기업이나 직장인 뿐만 아니라 개인이 생활하면서도 느끼는 불편함등을 쉽게 해결하고 뿌듯함을 느낄 수 있을 것이다. 곰곰히 생각해보고 필요한 서비스를 직접 만들어보자.