본문 바로가기
Project

[tpj01] 01 - 데이터 수집

by soojitasan 2023. 3. 12. 18:19

지난주에는 토이 프로젝트 설계와 작업 프로세스를 간단하게 정리했었다.

 

가장 까다롭다고 생각되는 작업이 2가지가 있는데

 

첫번째는 데이터 수집 (정확히는 '적절한' 데이터 수집)

두번째는 웹페이지 개발이다.

 

 

구글링 하다보면 데이터는 정말 많지만 쓰기 어려운 데이터가 많다.

(적절한 파일 형식으로 제공되지 않는 데이터, 출처가 불분명한 데이터 등...)

 

그치만!

열심히 검색한 결과 아래 두 곳에서 쓸만한 자료를 수집했다.

1) 나이스 교육정보 개방포털

2) 서울 열린데이터광장

 

추가로 사용하고 싶은 데이터를 발견했는데 ... 

파일 형식으로 제공하지 않아서 크롤링을 사용해야할 것 같고

이건 시간이 많이 필요할 듯 하다 .... 

 

 

우선은 csv 파일로 최초 1회 데이터를 다운받았고,

이후 데이터 업데이트가 필요할 때는 제공해주는 Open API를 통해 자동화도 가능해보인다!

 

수집한 데이터는 총 16만 건 정도. 😊

 

 

다음 진행할 작업은 데이터 정제이다.