본문 바로가기

programming/Flink2

02. Flink 아키텍처 Flink DataStream 데이터의 스트림을 나타낸다 플링크에서 데이터를 처리하는데 사용하는 주요 추상화 개념 source kafka, rabbit mq 등과 같은 외부 시스템의 데이터를 Flink Jobs로 수집합니다 sink DataStream을 외부 시스템에 쓰는 역할을 한다 Kafka, Cassandra 등등 데이터 스트림도, 배치도 가능 Flink의 철학 배치는 데이터가 유한한 스트림이다 초저지연을 목표로 하는 실시간 처리 상태가 있는 스트림 처리 스트림 데이터 처리에서 주의해야 할 점 Flink 시간 시멘틱 데이터의 처리 시간은 데이터 발생 시간 뿐만 아니라 네트워크, 처리 속도 등 여러 요소가 영향을 미친다 그래서 데이터 처리 시간이 아닌 데이터 자체의 실제 시간을 이용해야 한다 처리 시.. 2023. 3. 8.
01. Flink란? Flink 빅데이터 처리 및 분석을 위한 오픈 소스 분산 컴퓨팅 시스템 핵심 기능으로는 이벤트 시간과 처리 시간 시멘틱 순서가 바뀐 이벤트가 들어오더라도 일관성 있고 정확한 결과를 제공한다 상태 일관성 보장 아파치 하둡, 아파치 카프카, JDBC 등 저장 시스템과 연결하는 여러 종류의 커넥터를 제공한다 스트림과 배치 작업 모두에 대해 정확하게 한 번만 처리할 수 있는 매커니즘이 내장되어 있다 멱등성, 데이터 중복 방지 언어는 자바와 스칼라 지원 아파치 하둡, 아파치 카프카와 같은 다른 빅데이터 도구와 통합될 수 있다 Flink에서 애플리케이션은 사용자 정의 연산자에 의해 변환될 수 있는 데이터 흐름으로 구성된다 데이터는 하나 이상의 데이터 소스로부터 변환을 수행하고 하나 이상의 싱크로 끝나는 순서를 가진.. 2023. 3. 5.