Snowflake, Google, Cloudera를 포함한 수많은 공급업체가 Apache Iceberg 테이블 형식을 지원한 지 1년이 되었습니다. 이는 데이터가 어디에 있든 분석을 제공할 것을 약속합니다.
Ryan Blue는 Netflix에서 근무하면서 테이블 형식을 공동 개발했으며, 그가 이 회사를 발견한 Tabular는 Andreessen Horowitz와 Zetta Venture Partners의 참여로 Altimeter Capital이 주도하는 2,600만 달러 규모의 시리즈 B 자금 조달 라운드를 막 마감했습니다. .
말하기 레지스터Blue는 Tabular가 Iceberg를 Blob 저장소와 데이터 분석 공급업체 사이의 일종의 중립적인 “데이터베이스 저장소”로 만드는 것을 목표로 한다고 말했습니다.
Snowflake와 다른 사람들이 사용자가 클라우드에서 독립적으로 확장할 수 있도록 스토리지와 컴퓨팅의 분리를 개척한 이후 10년 동안 이 접근 방식에 의존하는 클라우드 기반 분석 및 데이터 플랫폼 시장은 위험이 큰 전쟁터로 성장했습니다.
지난주 Databricks는 시리즈 I 자금에서 5억 달러를 유치하여 명목상 430억 달러의 가치를 평가했으며 Snowflake는 2020년 IPO 직후 1,200억 달러라는 엄청난 가치를 얻었습니다.
동시에 공급업체 시스템 외부의 데이터에 분석 엔진을 적용하는 경우 시장에서 항상 중립성이 존재하는 것은 아닙니다. 약속은 거기에 있습니다. 작년에 Snowflake, Cloudera 및 Google은 Apache 오픈 소스 프로젝트인 Iceberg 뒤에 줄을 섰습니다. 그 이후로 AWS와 IBM이 합류했습니다. 아이디어는 사용자가 Snowflake의 분석 엔진을 Iceberg 테이블 형식으로 제품 포트폴리오 외부에 저장된 데이터로 가져올 수 있다는 것입니다. 사용자는 데이터 저장이나 이동이 아닌 컴퓨팅에 대해서만 Snowflake에 비용을 지불합니다.
울타리 반대편에는 Salesforce, SAP 및 Microsoft가 Databricks에서 개발했지만 Linux Foundation에 오픈 소스로 제공되는 Delta Lake 테이블 형식 뒤에 줄을 섰습니다. 명확히 하자면, SAP와 Microsoft는 Iceberg를 적시에 지원할 것이라고 밝혔고, Databricks는 올해 초 Iceberg와 다른 테이블 형식인 Apache Hudi에 대한 지원을 발표했습니다. Oracle조차도 MySQL 기반 HeatWave 데이터 웨어하우스가 Iceberg 및 Delta Lake를 시작으로 향후 이러한 테이블 형식을 지원할 것이라고 밝혔습니다. 그러나 Blue의 경우 강조점과 사용자가 최고의 성능을 제공하기 위해 누구를 신뢰할 것인지의 문제입니다.
Iceberg의 공동 제작자는 “객체 저장소로서의 스토리지는 바보 같은 짓입니다.”라고 말했습니다. “그들이 S3를 매우 놀라운 제품으로 만들기 위해 많은 작업을 하지 않는다는 말은 아니지만, 데이터를 이해하지 못하고 데이터베이스와 같은 작업을 수행하지 않는다는 점에서 바보입니다. 데이터 파일을 압축하지 않습니다. 행의 타임스탬프를 확인하지 않고 너무 오래되면 제거합니다. 이는 데이터베이스 저장소 계층에 대한 작업입니다. 테이블 형식은 범용 데이터베이스 저장소입니다. 우리는 의도적으로 함께 작업하고 싶습니다. 모든 컴퓨팅 엔진이 위에 있습니다.”
Blue는 다음과 같이 덧붙였습니다. “Databricks와 Snowflake라는 두 공급업체를 사용한다고 상상해 보세요. 둘 다 적어도 교환을 위해 Iceberg를 지원합니다. Databricks에 저장된 Iceberg 테이블을 읽을 수 있습니다. 하지만 Databricks가 이를 올바른 방식으로 노출할 것이라고 신뢰하십니까? Snowflake의 성능이 정말 뛰어난가요? 기본적으로 제가 인터뷰한 모든 고객은 그렇지 않습니다.
“우리는 워크로드, 데이터 세트 및 해당 데이터 세트를 사용하는 모든 것을 놓고 경쟁하는 공급업체가 있을 뿐만 아니라 전체 호수, 전체 창고 또는 이 두 가지가 병합되어 무엇이든지 모든 데이터를 저장하기 위해 경쟁하고 있습니다. 데이터베이스 공급업체는 항상 해당 스토리지와 컴퓨팅 서비스를 최고로 보이도록 만들기 때문에 정말 걱정스럽습니다. 우리는 실제로 이러한 계층을 분리해야 하며 이것이 Tabular가 필요한 곳입니다.”
크고 까다로운 데이터 레이크 환경에서 Apache Hive 테이블에 내재된 성능 및 사용성 문제로 인해 Ryan과 Netflix의 동료 데이터 팀원인 Dan Weeks는 2018년 11월 Iceberg를 Apache Software Foundation에 오픈 소스 프로젝트로 기부했습니다. 그들은 함께 Tabular를 설립했습니다. 2021.
올해 초 Tabular는 “헤드리스” 데이터 웨어하우스를 위한 시스템인 첫 번째 제품을 출시했습니다. 사용자는 최대 1TB의 데이터를 무료로 시작할 수 있으며, 그 이후에는 회사에서 관리 중인 데이터 양에 따라 요금을 부과합니다.
아키텍처 다이어그램에서 Tabular는 Iceberg와 Apache Spark, Trino, Python, Snowflake 등 널리 사용되는 분석 컴퓨팅 엔진 사이에 위치하여 수집, 최적화, 카탈로그 작성 및 역할 기반 액세스 제어와 같은 서비스를 제공합니다.
Iceberg를 통해 비즈니스와 경제, 기술 측면에서 스토리지와 컴퓨팅을 풀어 사용자가 비용을 최적화하면서 원하는 도구를 선택할 수 있는 더 큰 자유를 제공할 것을 약속합니다.
Blue는 Snowflake가 스토리지와 컴퓨팅의 분리를 개척했지만 여전히 스택에 수직적으로 통합되어 있다고 지적했습니다.
Blue는 “이것은 스토리지와 컴퓨팅이므로 이를 사용하려면 패키지를 살펴보아야 합니다.”라고 말했습니다. “Iceberg는 실제로 엔진 아래와 엔진 간에 스토리지를 공유할 수 있기 때문에 게임의 판도를 바꾸고 있습니다. 이것이 오늘날 일어나고 있는 변화입니다.”
Databricks는 Delta Lake 형식의 개발을 엄격하게 통제한다는 사실을 부인하고 다른 형식의 도입을 환영한다고 말했습니다. 말하기 레지스터 작년 말 CEO이자 공동 창업자인 Ali Ghodsi는 Iceberg, Hudi 및 Delta가 유사하며 대부분의 공급업체가 전반적으로 채택할 가능성이 있다고 말했습니다. 그러나 그는 데이터 웨어하우스 공급업체가 시스템에 데이터를 저장하여 돈을 벌기 때문에 표준에 대한 최적의 지원을 제공할 인센티브가 없을 것이라고 주장했습니다.
스토리지와 컴퓨팅의 경제적 분리를 위해 테이블 형식에 대한 관심이 높아진 결과가 무엇이든, Tabular는 세계 최대 소프트웨어 공급업체 중 일부가 갑자기 관심을 두는 시장에 출시되었습니다. 총 투자액 3,700만 달러가 상어 탱크에서 살아남기에 충분한지 여부만 확인하면 됩니다. ®