[ad_1]
오픈소스는 결코 클라우드에 편안하게 자리잡은 적이 없습니다. (대부분의 오픈 소스 프로젝트가 유지관리되지 않은 보안 황무지라는 일부 증거에도 불구하고) 오픈 소스가 그 어느 때보다 강력했던 것은 사실이지만, 새로운 라이센스 모델이 계속 등장하는 이유가 있으며 이는 기업의 탐욕이 아닙니다. 오히려 그것은 오픈 소스의 근본적인 자유와 올바르게 존경받는 OSD(오픈 소스 정의)가 클라우드 컴퓨팅이 부과한 차이점에 대한 진정한 답을 제공할 만큼 업데이트되지 않았기 때문입니다(제가 2009년에 쓴 내용입니다).
OSD를 주도하는 OSI(Open Source Initiative)의 전무이사인 스테파노 마풀리(Stefano Maffulli)는 “오픈 소스는 소프트웨어가 배포되고 실행되는 방식의 진화를 놓쳤습니다.”라고 주장합니다. “우리는 무슨 일이 일어나고 있는지 별로 주의를 기울이지 않았고 이로 인해 클라우드 비즈니스에 많은 긴장이 생겼습니다.” 내 기억으로는 우리는 했다 변화에 많은 관심을 기울이지만 빠르게 움직여야 한다는 압박이 너무 강해서 업계에서는 결국 누구도 만족시키지 못하고 소프트웨어의 현실을 무시하는 Affero General Public License(AGPL)와 같은 제3자 해킹을 받아들이게 되었습니다. 창조. 어떤 사람들은 AGPL을 “독성”이라고 불렀고, 이로 인해 Google과 같은 주요 영향력 있는 사람들은 이를 “준수하기가 매우 어렵습니다”라고 거부했습니다.
이번에 OSI는 AI 시대에 맞춰 오픈소스를 업그레이드하기로 결정했다. Maffulli와의 인터뷰에서 그는 OSD를 AI에 적용하는 데 따른 어려움과 기회에 대해 설명했습니다.
“너 계속 그 단어 쓰잖아”
우리는 Meta와 다른 사람들이 LLM(대형 언어 모델) 및 기타 AI 프로젝트에 “오픈 소스”라는 용어를 오용했다고 주장하는 것을 모두 보았습니다. GitHub의 개발자 정책 책임자인 Mike Linksvayer는 “오픈 소스 AI가 무엇인지에 대한 정해진 정의가 없습니다.”라고 말합니다. 클라우드에서와 마찬가지로 AI에서도 오픈소스가 동일하다고 생각할 수 있지만 결과는 마찬가지로 만족스럽지 못할 것입니다. Aryn CEO이자 공동 창업자인 Mehul Shah는 “AI 모델은 표면적으로는 단지 소프트웨어 프로그램일 뿐이지만 개발, 사용, 배포되는 방식은 소프트웨어와 다릅니다.”라고 지적합니다. 그렇지 않은 척하면 실패에 대비한 오픈 소스를 설정하는 것입니다.
OSI는 “인공지능은 데이터와 소프트웨어 사이의 경계를 무너뜨린다”고 제안합니다. 오픈 소스를 LLM의 가중치/부동 소수점 숫자, 훈련 데이터 또는 기타 항목에 적용해야 합니까? 불분명하며 다른 방법을 제안하는 사람은 우리가 클라우드에서 저지른 것과 동일한 쉬운 실수를 저지르고 실제로 어려운 문제를 해결하기보다는 라이선스 해킹에 안주할 위험이 있습니다.
결과가 중요합니다.
“무료 및 오픈 소스” AI(섹션 60)에 대한 예외를 규정하려는 유럽 의회의 최신 유럽 AI법 초안을 고려해 보세요. Maffulli는 다음과 같이 말합니다. “무엇이 무엇인지에 대한 명확한 이해가 없다면 [open source] 현실적으로 연구에 막대한 위축 효과가 있을 것으로 예상한다”며 “불확실성으로 인해 학계와 민간 연구실 모두 어려움을 겪을 것”이라고 말했다. 클라우드에 적용된 상업용 오픈 소스의 초기 단계를 살아온 우리라면 2007년에 내가 설명했던 문제를 인식하게 될 것입니다. 그 당시에는 “배포”가 “소프트웨어”가 의미하는 바가 점점 더 “여러 공간에 분산된 서비스”를 의미한다는 것을 아는 사람이 없었습니다. 네트워크.” 기업 도입을 희망하는 사람들은 GPL과 같은 무료 오픈 소스 라이선스를 적용하는 방법을 확신하지 못했습니다.
“같은 실수를 반복하고 싶지 않았다… [we had with] AI를 활용한 클라우드”라고 Maffulli는 강조합니다. “그래서 우리는 3년 전부터 이 지역에서 무슨 일이 일어나고 있는지 조사하기 시작했습니다. [AI].” 이것이 클라우드가 OSI를 뒤흔들었을 때와 얼마나 다른지 과장하기는 어렵습니다. OSI가 클라우드에 너무 늦게 반응한 것처럼 느껴졌습니다. 이제는 일찍 참여하고 있습니다.
“매우 복잡함”
Maffulli와 OSI는 소프트웨어가 소프트웨어라고 가정하는 대신 AI에서 소프트웨어가 무엇을 의미하는지에 대한 근본적인 질문을 놓고 고심하고 있습니다. Maffulli는 다음과 같이 말합니다. “개발자가 모델에 액세스할 수 있다는 것은 무엇을 의미하며, 행사해야 하는 권리는 무엇입니까?[ed]수정할 가능성을 가지려면 무엇이 필요합니까? [and redistribute] 그 모델?” 대부분의 개발자는 소스 코드를 검사하거나 수정하지 않지만 그렇게 하는 것이 중요합니다. 블랙박스 시스템이 일상 생활(예: 구직자 심사)에 강력한 영향을 미칠 수 있는 AI에서는 특히 그렇습니다. 머신러닝 모델이 어떻게 결정에 도달했는지 이해하려면 “블랙박스”를 들여다볼 수 있는 능력이 필요합니다. 오픈 소스에서는 “당신이 받는 것이 상자에 적힌 것과 일치하는지 확인하려면 그것이 어떻게 작동하는지 연구해야 한다”고 Maffulli는 주장합니다.
쉽게 들리나요? 그렇지 않습니다. “이것이 바로 우리가 하려는 일이며 매우 복잡한 시나리오입니다.”라고 그는 강조합니다.
OSI가 시선을 끌지 않도록 Mafffulli는 Mozilla, 벤처 자본가, 크리에이티브 커먼즈, 학계 등 다양한 이해 관계자와 협력하고 있습니다. 요점은 “오픈 소스가 경제적 성공의 원동력으로 인식되기” 때문에 “더 명확한 이해를 얻는 데 기득권”을 가진 다양한 사람들과 대화하는 것입니다.
가장 큰 어려움은 데이터와 소프트웨어가 불가분하게 연결되어 있는 세상에서 오픈 소스를 정의하는 것입니다. Maffulli가 설명했듯이, 그의 작업 그룹에서 가장 집중적인 논의는 훈련 데이터와 이를 적용하는 방법에 대한 지침 간의 종속성에 관한 것입니다. 관련된 복잡성과 이해 관계를 고려할 때, “현재로서는 이것이 무엇을 의미하는지에 대한 강력한 합의가 없습니다”라고 그는 말합니다.
적어도 두 가지 접근 방식이 있으며, 작업 그룹에는 두 가지 주요 파벌이 결집되어 있습니다. 첫 번째는 편안한 소스 코드 개념을 고수하여 “소스 코드”가 데이터 세트에 일대일로 변환된다는 아이디어를 장려합니다. 이러한 관점에서 보면, 모델을 구축하는 방법에 대한 지침과 바이너리 코드의 조합이 “오픈 소스”의 적용을 받는 소스 코드입니다.
두 번째 세력은 원본 데이터 세트에 액세스하지 않으면 코드를 수정할 수 없다고 믿기 때문에 사물을 근본적으로 다른 방식으로 봅니다. 이러한 관점에서 오픈소스의 기본적인 자유를 효과적으로 행사하려면 다른 것이 필요합니다. Maffulli가 자세히 설명했듯이 “유물을 만드는 데 들어간 내용에 대한 매우 자세한 설명”이 필요합니다. 이 세상에서는 데이터 세트를 모으는 데 사용된 모든 스크립트, LLM을 지배하는 가중치, 모델에 가져오는 편향 등을 게시해야 합니다. 제 생각에는 이것이 훨씬 더 흥미롭고 흥미롭습니다. 오픈 소스 AI에 대해 생각하는 유용한 방법이지만 실제로 제공하는 것은 훨씬 더 복잡합니다.
어느 접근법도 그 자체로는 실행 가능하지 않을 것입니다. Maffulli에 따르면, “우리는 공통분모를 찾아야 합니다.” 그가 설명했듯이, 현재의 접근 방식은 데이터를 공유할 수 없거나 공유 데이터 개념 없이 애플리케이션이 구축되는 애플리케이션(예: 연합 학습 시스템)을 간과하고 다른 방식은 오픈 소스에 영향을 받지 않는 대규모 AI를 만들 수 있습니다. 방식은 AI 작동을 위한 데이터의 본질적인 중요성을 인식하지 못합니다. 이는 OSI가 Google과 같은 일부 최고의 오픈 소스 시민이 AGPL과 같은 라이선스를 피하는 것을 비실용적이거나 불가능하게 만드는 “배포”의 정의를 강제하려고 시도한 방식과 유사합니다.
그러나 Maffulli는 낙관적입니다. 그는 2024년까지 “네 가지 자유와 유사한 것을 보게 될 것”이라고 말합니다. 왜냐하면 모든 사람이 오픈 소스 AI의 정의를 찾는 데 매우 긴박감을 느끼기 때문입니다. 이번에는 접근 방식이 다릅니다. “우리는 한발 물러서고 있다 [and not] 라이선스를 평가하기 위한 10가지 체크리스트를 작성합니다.” 대신, 그 네 가지 자유(실제로는 네 가지 원칙)는 “다섯 가지 자유가 될 것이며 [will be] AI 시스템에 적용됩니다.” 그는 이러한 필수 원칙을 일단 정하고 나면 이를 딥 러닝, 머신 러닝 및 기타 AI 시스템에 적용하여 “오픈 소스”를 측정하는 것이 상대적으로 쉬울 것이라고 주장합니다.
다행스럽게도 OSI는 단독으로 작동하지 않습니다. 도움을 주고 싶으시면 OSI의 Deep Dive 프로세스에 참여하시거나, OSD의 발전에 대해 의견을 제시하시거나, Mafffulli에 연락하실 수 있습니다. 곧장. Mafffulli는 OSI가 AI의 오픈 소스를 축소하지 않도록 보장하기 위해 개방적이고 포괄적인 프로세스를 실행하고 있습니다.
저작권 © 2023 IDG Communications, Inc.