ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [R언어] 1일차
    카테고리 없음 2019. 4. 26. 15:25

     

    시작하기전에 빅데이터를 알아보았다.


     

     

    빅데이터란?

    정형데이터와 비정형 데이터가 합쳐진 개념이라고 한다.

     

    정형데이터란 정수형,복소수형 같이 일정한 데이터로 표시할 수 있는 단위이고

     

    비정형데이터란

     "미리 정의된 데이터 모델이 없거나 미리 정의된 방식으로 정리되지 않은 정보를 말한다. 비정형 정보는 일반적으로 텍스트 중심으로 되어 있으나 날짜, 숫자, 사실과 같은 데이터도 포함할 수 있다. 이로써 변칙과 모호함이 발생하므로 데이터베이스의 칸 형식의 폼에 저장되거나 문서에 주석화된(의미적으로 태그된) 데이터에 비해 전통적인 프로그램을 사용하여 이해하는 것을 불가능하게 만든다."(https://ko.wikipedia.org/wiki/%EB%B9%84%EC%A0%95%ED%98%95_%EB%8D%B0%EC%9D%B4%ED%84%B0)라고 명시되어 있다.

     

    예를들어 Log(이산형,연속형,web log,Machine log,계량기),Text(소셜미디어,콜센터 통화 음성을 텍스트로 변환한 데이터),Sound(일상생활에서 들을수 있는 진동및 소리),Image(사진,얼굴표정),Video(cctv같은) 등이 있다.

     

    빅데이터의 특징에는 4V가 있는데

     

    Volume: 상대적인 요소로 기업의 처리데이터가 상당히 차이가 큰다는것이 있다. 그러다 보니 보다 빠른 처리 능력이 요구되고 그것으 기술적인 발전의 기반으로 가능하다.

     

    Variety: 다양한 소스에서오는 다양한 데이터라는것이다.

     

    Velocity: 데이터 발생및 처리 속도가 빨라졌다.

     

    Value: 상대적으로 매우 중요한 요소이다. 만족도 증대, 비용절감, 수익증대, 신규사업 진출로 가치가 발생한다는것이다.


    그다음은 앞으로 사용할 R프로그램이다.

     오픈소스 프로그램임과 동시에 다양한 장점이 있는데

    데이터 분석과 그래프기능에서 강력한 면을 보여준다는것이다.

    또한 데이터 핸들링에 유용하고 메모리에서 작동되게 때문에 데이터처리가 빠르다.

    또한 다양한 패키지를 제공해준다,(Cran사이트 : https://cran.r-project.org

     

    다운로드는 https://www.r-project.org/에서 받을수 있다. 오픈소스 프로그램이라 구매할 필요가 없다. 

    관리자 권한으로 실행하여야 한다

    그뒤로 다음을 누르며 설치를 해주고

    꼭체크를 해주자

    스타트업 옵션은 No를 하였다.

    이렇게 나머지는 계속 넘어가면 다음을 눌러주며 설치를 완료해주자.

     

    그 다음은 R언어 개발을 도와주는 R studio를 설치해줘야 하는데

     

    필자는 이곳을 참고하여 (https://rfriend.tistory.com/6) 설치하였다.

    R 스튜디오도 게시글을 참조해 설치하자

     

     

Designed by Tistory.