전체 글24 Udacity - Cloud Data Warehouse - Implementing DWH AWS 기반 DWH 구축 Redshift (레드쉬프트) 보통의 RDBMS (MySQL같은) 에서의 쿼리는 1개의 CPU가 처리한다 -> 매우 느림 Redshift 는 MPP(Massively Parallel Processing)을 지원하는 columnar-based 여서 1개의 쿼리를 다중 CPU가 처리 가능 -> 빠름 HOW? Partitioned Table 로 구성되어 있고 각 CPU가 각각의 Partition에 대해서 작업을 하고 취합하는 형식으로 병렬연산 가능? Architecture Leader Node (Hadoop-Namenode, masternode) 가 모든 것을 총괄 Compute Node (Hadoop-Datanode, slavenode) 는 계산/작업 담당 각 각의 node = Se.. 2022. 1. 7. Udacity - Cloud Data Warehouse - Intro to Data Warehouse Data Warehouse a system that retrieves and consolidates data periodically from the source systems into a dimensional or normalized data store. It usually keeps years of history and is queried for business intelligence or other analytical activities. Updated in batches 쉽게 말해 프로덕션 레벨의 db는 보기도 어렵고, 분석 쿼리를 날리기에 처리속도가 너무 느려서, analytical process를 하기 위해서 데이터 분석전용 Data Warehouse를 빌드하는 것 Dimensional Mode.. 2021. 12. 8. Udacity - Data Modeling - NoSQL Data Models NoSQL 의 중요성 (SQL을 언제 사용하면 안되는지) Need high Availability in the data: 서버가 항상 살아있어야 함 Have Large Amounts of Data: 대용량 데이터 처리 (SQL은 대용량 처리비용이 비쌈) Need Linear Scalability: node(서버)를 추가하면 linear한 성능향상이 있어야함 Low Latency: Shorter delay Need fast reads and write Distributed Database system Hadoop과 같이 distributed Database system은 좀 다르게 설계가 되어있다 Cassandra의 경우 각각의 node가 서로 연결되어 있고, 같은 정보가 중복되어 백업되어 있다. 한 no.. 2021. 12. 7. Udacity - Data Modeling - Relational Data Models Relational Data Models 의 중요성 정형화된 데이터 모델: 데이터 포맷이 정형화 되어있어서 SQL 날리기 편함 테이블의 추가/삭제/변경이 간편하고 쉬움 데이터의 integrity(정확도)가 보장 SQL 사용 가능 OLAP vs OLTP OLAP (Online Analytical Process) allow for complex analytical and ad hoc queries, including aggregations. These type of databases are optimized for reads. 월별 사용량 등 통합 쿼리에 특화 OLTP (Online Transactional Process) allow for less complex queries in large volumes.. 2021. 11. 13. 이전 1 2 3 4 5 6 다음