I-4-1 DBMS와 SQL

 

  1. DBMS의 개념과 종류
    1. DBMS(Data Base Management System)란 무엇인가? - 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어이다.
    2. DBMS의 종류
      1. 관계형 DBMS - 데이터를 칼럼, 로우를 이루는 하나 이상의 테이블로 정리하며, 고유키가 로우를 식별한다. 로우는 레코드나 튜플로 부르며 일반적으로 각 테이블/관계는 하나의 엔티티 타입을 대표한다.
      2. 객체지향 DBMS - 일반적으로 사용되는 테이블 기반의 관계형 DB와 다르게 정보를 '객체' 형태로 표현하는 모델
      3. 네트워크 DBMS - 레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프를 기반으로 하는 데이터베이스 모델
      4. 계층형 DBMS - 트리구조를 기반으로 하는 계층 데이터베이스 모델이다.
    3. SQL의 개념과 주요함수
      1. SQL(Structured Query Language)이란 무엇인가? - 데이터베이스에 접근할 수 있는 데이터베이스의 하부 언어로, 단순한 질의 기능 뿐만 아니라 완전한 데이터의 정의와 조작 기능을 갖추고 있다.
      2. SQL 주요 함수
        1. AVG(평균값)
        2. COUNT(특정 조건에 맞는 개수)
        3. SUM(총합)
        4. STDDEV(분산)
        5. MIN(최소값)
        6. MAX(최대값)

I-4-2 데이터와 관련된 기술

 

(1) 개인정보 비식별 기술

데이터 셋에서 개인을 식별할 수 있는 요소를 전부 또는 일부를 삭제하거나 다른 값으로 대체하는 등의 방법으로 개인을 알아볼 수 없도록 하는 기술

 

(2) 데이터 무결성(Data Integrity)

데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정시 여러가지 제한을 두어서 데이터의 정확성을 보증

 

(3) 데이터 레이크(Data Lake)

많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템

 

I-4-3 데이터 분석기술

 

(1) 하둡(Hadoop) - 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술

(2) 아파치 스파크(Apache Spark) - 실시간 분산형 컴퓨팅 플랫폼으로써 스칼라로 작성이 되어 있지만 스칼라, 자바, R, 파이썬, API를 지원한다.

(3) 스마트 팩토리(Smart Factory) - 공장 내 설비와 기계에 사물 인터넷(IoT)이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화할 수 있는 기술

(4) 기계학습(Machine Learning, 심화학습(Deep Learning) - 기계학습은 인공지능의 연구 분야 중 하나로 기계가 학습하여 결과를 도출하는 기술이다.

 

  • 머신러닝(Machine Learning) 이란?
    • 1959년, 아서 사무엘은 기계 학습을 다음과 같이 정의
      "기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야"

    • 알고리즘 유형
      • 지도 학습
      • 자율 학습(기계 학습)
      • 준지도 학습
      • 강화 학습
      • 심화 학습
    • 일반적으로 기계 학습은 훈련 이후 새롭게 들어온 데이터를 정확히 처리할 수 있는 능력을 말한다.
  • 심층학습(Deep Learning)이란?
    • 심층학습 또는 딥러닝은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습을 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다.

I-4-4 데이터 관한 기타 내용

 

  1. B2B - 기업과 기업 사이의 거래를 기반으로 한 비즈니스 모델
  2. B2C - 기업과 고객 사이의 거리를 기반으로 한 비즈니스 모델
  3. 블록체인 - 거래정보를 하나의 덩어리로 보고 이른 차례로 연결한 거래장부이다.
  4. 데이터의 유형
    1. 정형데이터 : 형태(고정된 필드)가 있으며 연산이 가능함, 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬운 편(예, 관계형 데이터베이스, 스프레드시트, CSV 등)
    2. 반정형데이터 : 형태(스키마, 메타데이터)가 있으며 연산이 불가능함, 데이터 수집 난이도는 중간(예, XML, HTML, JSON, 로그 형태 등)
    3. 비정형데이터 : 형태가 없고, 연산이 불가능, 데이터 수집 난이도는 높고 처리가 어려움(예, 소셜데이터, 영상, 이미지, 음성, 텍스트 등)
,