Spark - 윈도우10에서 빅데이터 실습 세팅 및 시작하기

## 네이버 블로그에 포스팅한 내용 옮겨오기

Spark 실습 환경 구성하기

1. java 설치
-- 1.7, 1.8 둘 다 깔려있으면 1.7로 인식하는 듯? (scala 설치 시 1.7 경로에 설치됨.)
기존거 삭제하고 1.8로 다시 설치함.

2. scala 설치
-- spark 사용하려면 경로 따로 설정해줘야 함.
아래 URL에서 msi 파일 다운받아서 설치하기. (github에 올려져있는 파일 옮겨도 될 것 같긴한데 우선 안전하게 설치파일로......)
https://www.scala-lang.org/download/2.13.3.html

Scala 2.13.3

2.13.3 Release Notes • Changelog • API Docs Are you looking for another release of Scala? Release Notes For a summary of important changes, see the GitHub release notes. (Or consult our archive of older release notes.) Ways to Install This Release Othe

www.scala-lang.org

-- 근데 설치하고 나니까 왜 conf 폴더가 없고 doc랑 api 폴더가 생겼는지 모를일.... 걍 넘어가자고

3. spark 설치
-- 지금은 3.2.1 버전까지 나와서 3.1.2 버전으로 설치했는데 안되면.... 다시 설치............
압축파일 다운받아서 생성한 경로에 넣어주기

4. hadoop 파일 옮기기
-- git cmd로 다운받기

5. 환경변수 설정
-- 고급 시스템 설정 보기 -> 고급 -> 환경변수 -> 시스템 변수 생성
1) SPARK_HOME C:\spark-3.1.2\bin
2) SCALA_HOME C:\scala\bin
3) JAVA_HOME C:\Program Files\Java\jdk1.8.0_321
4) HADOOP_HOME C:\hadoop
5) JAVA_OPTIONS -Xmx512M -Xmx512M
-- 5)의 -Xmx512M 의미는 out of memory를 방지하기 위해 512MB 메모리를 사용하겠다고 미리 할당한다는 뜻
왜 두번 쓰는지는 모르겠다 .. 추후 찾아봐야 함

6. spark-shell
-- warning 구글링해보니 환경변수에 python도 추가해야한다는 말이 있는데..?
근데 무시해도 된다고 해서 그냥 우선 넘어가기!