[ad_1]
프랭크 바움은 도로시를 이끌고 위대하고 강력한 오즈의 마법사를 사기꾼으로 폭로하게 했을 때 시대를 훨씬 앞서 있었습니다. 먼치킨들은 자신들의 삶에 갑자기 찾아온 놀라운 오즈의 마법사가 마술사라고 믿었습니다. 그는 천둥과 번개를 소환할 수 있었습니다. 그는 전기의 호를 만들 수 있었습니다. 그는 인간의 얼굴을 화면에 나타나게 하고 연설을 구성할 수도 있었습니다.
그러나 토토가 막을 열었을 때, 우리 모두는 마법사의 힘이 실제로는 마법이 아니라는 것을 알게 되었습니다. 그것은 아주 좋은 기술과 마법을 믿고 싶어하는 청중의 조합이었습니다. 그리고 사람들은 정말로 무언가를 믿고 싶어할 때 의심을 잠시 멈추는 능력을 갖고 있습니다. 단순히 자신의 이해를 넘어서는 것으로 받아들이는 것입니다. 커튼은 항상 거기에 있고 때때로 사람들은 그 뒤를 보지 않기로 결정합니다.
바움의 책은 1900년에 출판되었고, MGM 영화는 1939년에 개봉했지만, 커튼은 단순히 LCD 화면으로 교체되었을 뿐입니다. 원작 이야기에서와 마찬가지로 오늘날의 경이로운 청중은 AI의 마법에 매료되어 있으며 대부분의 플랫폼 뒤에 있는 마법사들은 아우라를 없애기 위해 서두르지 않습니다.
최근에 본 AI 애플리케이션 동영상을 생각해 보세요. 자율주행차의 컴퓨터 비전부터 몇 초 만에 Rubik’s Cube®를 풀 수 있는 로봇, Lego® 조각 더미를 스캔하고 무엇을 만들 수 있는지 제안할 수 있는 앱에 이르기까지 모든 것이 있습니다. 우리는 마법에 사로잡혀 있습니다. 그리고 우리는 일반적으로 이러한 모든 애플리케이션 뒤에는 정지 이미지, 비디오 및 기타 유형의 비정형 데이터에 공들여 레이블을 지정하고 주석을 추가한 수많은 사람들이 있다는 사실을 깨닫지 못합니다. AI 모델에 매우 중요한 교육 데이터를 제공하여 이전에 본 적이 없는 이미지를 수집하고 사용할 수 있도록 하는 것은 라벨링의 정확성입니다.
데이터 라벨링은 인공 지능, 기계 학습 또는 비즈니스 인텔리전스 구현의 성공을 위해 절대적으로 필요합니다. 그것은 또한 지루하고 노동 집약적이다. 따라서 많은 플랫폼 설치 중에 최소화되는 경우가 많습니다. 때로는 이런 종류의 노력에 전념할 시간이 없는 데이터 과학자나 데이터 엔지니어에게 작업이 할당되는 경우도 있습니다. 그리고 ‘바로가기’가 상당히 일반적이라는 사실은 놀랄 일이 아닙니다. 라벨이 지정된 이미지 수를 줄이는 것입니다. 주제를 식별하기 위해 (깔끔한 경계 상자 대신) 대략적인 근사치를 만듭니다. 실제 사용 사례의 샘플 대신 기성 이미지 세트를 사용합니다. 그리고 다른 AI 모델에 의해 선별되고 라벨이 지정된 이미지를 사용합니다.
데이터 라벨링은 고급 기술 애플리케이션에서 구조화되지 않은 데이터를 활용하는 핵심이기 때문에 매우 중요한 기능이지만, 많은 구현에서는 구조화되지 않은 데이터를 이해하지 못합니다. 회사 데이터의 ‘모든’ 데이터를 제공한다고 주장하는 데이터 메시 및 데이터 패브릭 제공업체조차도 일반적으로 구조화되지 않은 데이터를 제외합니다. 그리고 이는 충격적인 결과로 이어집니다. AI/ML/BI 플랫폼에 투자하는 대부분의 기업은 처음에는 성능에 실망합니다. 플랫폼으로 인해 연결이 끊어지는 경우는 거의 없습니다. 이는 일반적으로 사용자의 잘못이 아닙니다. 회사의 전체 데이터 인벤토리 중 중요한 부분이 자신도 모르게 제외되었기 때문에 투자가 예상 수익을 제공하지 않습니다. 그리고 어떤 모델도 사용할 수 없는 데이터에서 학습하거나 통찰력을 제공할 수 없습니다.
이미지, 비디오, 오디오 파일, PDF 문서 및 기타 유형의 표 형식이 아닌 데이터가 누락된 것에 대해 사악한 마녀를 비난하기는 쉽지만 실제 이유는 훨씬 덜 불길합니다. 비정형 데이터는 매일 생성되는 새로운 데이터의 80%를 차지하지만 역사적으로 중요한 정보 소스로 간주되지 않았습니다. 클라이언트는 일반적으로 SQL 테이블, SAS 데이터세트 및 기타 ‘행-열’ 소스에 관심을 갖고 있으며, 플랫폼 제공업체는 잠재 고객이 요청하지 않은 변수를 도입하여 판매 주기를 방해하는 것을 꺼립니다. 따라서 해당 주제는 일반적으로 설치가 약속대로 이행되지 않을 때까지 논의되지 않습니다.
다음에 AI의 “마술”에 매료된다면, 최고의 애플리케이션은 이미지, 비디오 및 기타 비표준 데이터를 놀라운 모델을 지원하는 구조화된 데이터 세트로 변환하기 위해 커튼 뒤에서 일하는 사람들에 달려 있다는 점을 기억하십시오. 자체 고급 기술 구현을 계획할 때 회사의 구조화되지 않은 데이터를 포함하도록 상기시키는 데 어려움을 겪어서는 안 됩니다.
DataInFormation 솔루션 제품군을 통해 Liberty Source가 어떻게 구조화되지 않은 데이터 안에 갇혀 있는 가치를 발굴하는 데 도움이 되는지 알아보려면 다음의 CRO인 Joseph Bartolotta에게 문의하세요. [email protected].