I-4-1 DBMS와 SQL
- DBMS의 개념과 종류
- DBMS(Data Base Management System)란 무엇인가? - 데이터베이스를 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어이다.
- DBMS의 종류
- 관계형 DBMS - 데이터를 칼럼, 로우를 이루는 하나 이상의 테이블로 정리하며, 고유키가 로우를 식별한다. 로우는 레코드나 튜플로 부르며 일반적으로 각 테이블/관계는 하나의 엔티티 타입을 대표한다.
- 객체지향 DBMS - 일반적으로 사용되는 테이블 기반의 관계형 DB와 다르게 정보를 '객체' 형태로 표현하는 모델
- 네트워크 DBMS - 레코드들이 노드로, 레코드들 사이의 관계가 간선으로 표현되는 그래프를 기반으로 하는 데이터베이스 모델
- 계층형 DBMS - 트리구조를 기반으로 하는 계층 데이터베이스 모델이다.
- SQL의 개념과 주요함수
- SQL(Structured Query Language)이란 무엇인가? - 데이터베이스에 접근할 수 있는 데이터베이스의 하부 언어로, 단순한 질의 기능 뿐만 아니라 완전한 데이터의 정의와 조작 기능을 갖추고 있다.
- SQL 주요 함수
- AVG(평균값)
- COUNT(특정 조건에 맞는 개수)
- SUM(총합)
- STDDEV(분산)
- MIN(최소값)
- MAX(최대값)
I-4-2 데이터와 관련된 기술
(1) 개인정보 비식별 기술
데이터 셋에서 개인을 식별할 수 있는 요소를 전부 또는 일부를 삭제하거나 다른 값으로 대체하는 등의 방법으로 개인을 알아볼 수 없도록 하는 기술
(2) 데이터 무결성(Data Integrity)
데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정시 여러가지 제한을 두어서 데이터의 정확성을 보증
(3) 데이터 레이크(Data Lake)
많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템
I-4-3 데이터 분석기술
(1) 하둡(Hadoop) - 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술
(2) 아파치 스파크(Apache Spark) - 실시간 분산형 컴퓨팅 플랫폼으로써 스칼라로 작성이 되어 있지만 스칼라, 자바, R, 파이썬, API를 지원한다.
(3) 스마트 팩토리(Smart Factory) - 공장 내 설비와 기계에 사물 인터넷(IoT)이 설치되어, 공정 데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화할 수 있는 기술
(4) 기계학습(Machine Learning, 심화학습(Deep Learning) - 기계학습은 인공지능의 연구 분야 중 하나로 기계가 학습하여 결과를 도출하는 기술이다.
- 머신러닝(Machine Learning) 이란?
- 1959년, 아서 사무엘은 기계 학습을 다음과 같이 정의
"기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야" - 알고리즘 유형
- 지도 학습
- 자율 학습(기계 학습)
- 준지도 학습
- 강화 학습
- 심화 학습
- 일반적으로 기계 학습은 훈련 이후 새롭게 들어온 데이터를 정확히 처리할 수 있는 능력을 말한다.
- 1959년, 아서 사무엘은 기계 학습을 다음과 같이 정의
- 심층학습(Deep Learning)이란?
- 심층학습 또는 딥러닝은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습을 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있다.
I-4-4 데이터 관한 기타 내용
- B2B - 기업과 기업 사이의 거래를 기반으로 한 비즈니스 모델
- B2C - 기업과 고객 사이의 거리를 기반으로 한 비즈니스 모델
- 블록체인 - 거래정보를 하나의 덩어리로 보고 이른 차례로 연결한 거래장부이다.
- 데이터의 유형
- 정형데이터 : 형태(고정된 필드)가 있으며 연산이 가능함, 데이터 수집 난이도가 낮고 형식이 정해져 있어 처리가 쉬운 편(예, 관계형 데이터베이스, 스프레드시트, CSV 등)
- 반정형데이터 : 형태(스키마, 메타데이터)가 있으며 연산이 불가능함, 데이터 수집 난이도는 중간(예, XML, HTML, JSON, 로그 형태 등)
- 비정형데이터 : 형태가 없고, 연산이 불가능, 데이터 수집 난이도는 높고 처리가 어려움(예, 소셜데이터, 영상, 이미지, 음성, 텍스트 등)