목록개발/Flink (1)
free from
Flink Introduction
IntroAI모델에 필요한 학습데이터를 만들기 위해서 Kubeflow Pipeline으로 작업을 했었습니다.Object Stroage나 Hadoop에서 일별로 RawData를 가져와서 loop 안에서 데이터를 정제하는 과정을 거쳤었는데의도치 않게 예외가 발생하거나 버그가 있는 경우에는 처음부터 다시 재처리해야 했었습니다.RawData가 일별 데이터가 아니라 월별 혹은 년 단위와 같이 데이터가 큰 경우에는 더 많은 시간이 걸렸었죠.이때 스트리밍 데이터 처리가 필요하다는 점을 많이 공감했고Spark Streams, Kafka Streams, Flink 등 여러 스트리밍 기술 중에서 Flink가 관심이 많이 갔습니다.핑크 다람쥐가 귀엽기도 했고 Micro Batch가 아닌 Native Streamming을 지..
개발/Flink
2024. 6. 1. 23:48