AI 비디오를 어디서나 쉽게 볼 수 있지만, 생각했던 것보다 그런 간단한 것은 아니에요.

"AI 생성 기술을 사용한 것으로 의심되므로 신중하게 식별해 주십시오."

모두가 이를 발견했나요? 이 줄은 "광고는 참고용이며, 실물을 기준으로 해 주세요"라는 문구와 약간 비슷합니다. 이제 이 문구가 삶 속에서 점점 더 흔해지고 있어요.

Especially the current short video platforms.

특히 현재의 짧은 비디오 플랫폼.

고양이 동영상을 보게 되었는데, 입 모양은 AI로 합성된 것 같아요.

내용은 TikTok 사용자인 @둥둥먹는다로부터 온 것입니다.

"서유기를 보시면 AI 요정의 진짜 모습을 볼 수도 있습니다."

심지어 만화를 보아도, 그림은 항상 AI로 합성된 것 같아요.

인공지능 비디오가 점점 늘고 있습니다.

인공지능 비디오 물결을 일으키고 있는 Sora는 아직 어려움을 겪고 있지만, 인공지능 비디오 시대가 조용히 다가오고 있을지도 모릅니다.

동우증권의 보고서에는 중국 AI 비디오 생성의 잠재 산업 공간이 5800억 위안 이상의 시장을 보유할 수 있다고 예측되어 있습니다.

하지만 시장이 계속해서 뜨겁게 되면서 산업의 일부 문제들도 점차 공중 시야에 드러나기 시작했습니다:

Video and AI are indeed the future, but issues such as cost, quality, collaboration, and performance linger in the minds of all startup companies and large corporations.

비디오와 AI는 미래이지만 비용, 품질, 협력 및 성능과 같은 문제들이 모든 스타트업과 대기업의 마음속을 맴돕니다.

비용 문제와 품질 문제를 예로 들어 보겠습니다.

모두 아시다시피 현재의 생성 모델, 특히 비디오 관련 모델은 광대한 양의 데이터로 훈련되어야 하는 막중한 작업입니다.

대규모 비디오 트레이닝 데이터는 데이터 처리 및 계산, 그리고 데이터 자체에 엄청난 요구를 가져오며, 이에 따른 비용 증가는 천문학적인 수치입니다.

GPT-4는 "구식" 인공 지능으로, 개발 비용은 약 1 억 달러이며 훈련 비용은 대략 7800만 달러 입니다.

비디오 모델의 교육 비용은 더 높아졌습니다. 예를 들어, 처음에 출시된 비디오 모델 Sora의 교육과 추론에 필요한 컴퓨팅 요구는 각각 GPT-4의 4.5배와 약 400배입니다.

큰 모델 학습비용 뿐만 아니라 학습 샘플 품질, 복잡한 처리 과정, 다양한 환경 요인이 관련됩니다. 자체 개발 / 제삼자 개발, GPU, CPU, ARM 등 다양한 이종 컴퓨팅 자원이 필요하며 유연한 스케줄링 및 배포가 필요합니다.

따라서 AI 비디오를 채택하려는 많은 회사들에게 있어서 최우선 과제는 이러한 문제들을 해결하려는 방법을 모색함으로써 보다 신속하게 진화할 수 있는 것입니다.

비디오를 재생하는 마스터에 대해 얘기해야 한다면, 틱톡과 화산 엔진에 대해 말씀드릴 수 있습니다.

지난 달 말에 출시된 바이트가 화제가 된 PixelDance 의 효과는 정말 대단해요.

우리는 당시에 모두를 위해 특별히 글을 썼어요. 우리가 간단하게 만들어본 비디오 효과를 보면, 정말로 좋다는 것을 알 수 있어요.

15일에 종료된 화산 엔진 비디오 클라우드 기술 컨퍼런스에서, 커스텀 디지턀 인물 탄태가 인사를 건넸고 모두와 소통했습니다.

참석자들 대부분이 이것이 비디오 편집이라고 생각할 정도로 결과물 효과가 훌륭합니다.

이러한 고품질 AI 생성물 뒤에는 사실 BMF라는 지능적인 프레임워크가 있는데요.

화산 엔진은 자체 대형 모델 팀과 협력하여 대규모 비디오 데이터를 사전 처리합니다.

최종적으로 화산 엔진 비디오 처리 플랫폼과 BMF 프레임워크를 기반으로 짧은 시간 내에 충분히 많은 고품질 비디오 자료를 생산하여 모델 훈련에 사용함으로써 PixelDance가 탄생했습니다.

"BMF"라는 한 명의 영웅이 이 모든 것을 어떻게 이룰 수 있었나요?

그러면 이해하기 쉬운 일상적인 예시를 사용하여 설명해 보겠습니다.

한 회사가 대형 모델을 개발하는 것은 당신이 대보름 식사를 준비하는 것과 같습니다.

엄마가 밥을 요리하고 할머니가 만두를 만들고 아빠가 장을 사고 당신은 탁자와 의자와 벤치를 옮기고 계시죠.

모든 사람은 역할을 가져야 하고 처음부터 끝까지 바쁘게 움직여야 합니다. 때때로 전화를 걸거나 텍스트 메시지를 보내며 서로 돕는 것도 필요할 수 있습니다. 마지막으로 계산을 해보면, 참하네, 연말연시 등 소규모 식사를 하기 위해서는 여러 돈을 써야 한다는 사실을 깨닫게 됩니다.

BMF는 화산 엔진에서 선보인 "연휴 만찬 1 클릭 전체 프로세스 세트"입니다. 이는 여러 도구와 서비스를 제공하여 연휴 만찬을 쉽고 빠르게 준비할 수 있도록 도와줍니다.

This package specifically addresses the 4 pain points we mentioned earlier and has been adjusted accordingly.

이 패키지는 우리가 이전에 언급한 4가지 고통 요소를 특별히 다루었으며, 그에 따라 조정되었습니다.

예를 들어, 비디오 트레이닝 데이터 품질 문제를 해결하기 위해 그들은 다양한 알고리즘을 동원하여 비디오를 다차원으로 분석하고 선별하였으며, 완전한 세밀한 필터링을 실현하였습니다.

성능 문제에 대응하여, 그들은 BMF 프레임워크의 유연한 스케줄링을 활용하여 성능을 미리 배치했습니다.

이것은 마치 연례행사 준비로 아침 일찍 전략을 세워 놓은 것이라고 생각할 수 있습니다. 식재료 구입은 배달 서비스에 맡겨서 문 앞까지 배달 받고, 요리는 5성급 요리사가 특별히 조리하며, 의자와 탁자는 전문가들이 마련하고, 도우미들이 방치하는 것과 같습니다.

어쨌든 BMF 프레임워크를 사용했는데, 편리하고 편안하며 경제적이었습니다.

회사에서의 요구 사항을 해결했고, 우리는 모두를 잊지 않고 화산 엔진도 준비했습니다.

요즘에는 사람들의 장치의 계산 능력이 계속해서 증가하고, 그에 따른 비디오 화질 향상에 대한 강한 요구가 따라옵니다.

화산 엔진은 뛰어난 이점을 통해 매일 Douyin / Xigua 등 앱에서 수십억 대의 사용자와 대량의 비디오 이미지를 처리합니다.

이렇게 풍부한 경험을 쌓은 후, Volcano Engine은 BMF를 기반으로 한 "BMF Lite"를 만들어 일반 사용자에게 더 적합한 솔루션을 개발했고, 더 가벼워지고 효율적이며 보다 일반적인 진화를 이루었습니다.

예를 들어, 클라우드와 사용자 단말을 비교했을 때, 전력 소비와 메모리에 매우 민감하며 Android, iOS, PC 등 다양한 플랫폼이 관련된 시나리오입니다.

BMF-Lite는 플랫폼 간에 리소스를 재사용하는 알고리즘 패키지에 중점을 둔 프레임워크 설계를 구축했습니다.

간단히 말하면 각 플랫폼의 인터페이스 형식을 통합하여 통합 배포를 용이하게 하였습니다.

다시 알고리즘 컨트롤러를 사용하여 동일한 알고리즘 인스턴스를 재활용하는 것이 좋습니다. TikTok 재생 시나리오에서 랜덤 플레이 및 라이브 플레이 대부분은 하나만 유효하므로 리소스를 최대한 재사용할 수 있습니다.

BMF를 대표로 하는 지능형 프레임워크 외에도 화산 엔진은 지능형 컴퓨팅 및 지능형 코덱도 제안했습니다.

화산 엔진은 작년에 직접 제작한 비디오 인코딩 칩을 출시했습니다. 자체 개발한 비디오 코덱 기술을 통합했습니다.

혜택은 비디오 온디맨드, 라이브 스트리밍 등 특정 시나리오에 대해 이 변환 칩은 더 높은 계산 밀도를 갖고 있습니다.

이렇게 말할 수 있습니다. 비디오 인코딩 및 디코딩 칩 서버 한 세트의 전환 능력은 수백 대의 CPU 서버와 동등합니다.

오늘 비디오 인코딩 칩이 틱톡에 도입되었는데, 실전 데이터에 따르면 동등한 비디오 압축 효율에서 비용을 95% 이상 절약할 수 있다고 입증되었습니다.

비디오 인코딩 엔진에서는 내장 비디오 변환 칩을 기반으로 한 "BVE1.2 인코더"를 출시했습니다.

이 인코더는 깊은 학습 기술을 대담하게 통합하여 혁신적인 지능형 혼합 부호화 및 해독 솔루션을 선보였습니다. 전통 압축 기술과 깊은 학습 압축 기술이 유기적으로 통합되어 하나로 된 것으로, 부호화 및 해독의 효율이 크게 향상되었으며 부호화 성능이 향상되었습니다.

최근 종료된 제 6회 딥러닝 이미지 압축 챌린지(CLIC 대회)에서 "BVE1.2 인코더"가 두 개의 우승을 차지한 것으로 그 실력을 입증했습니다.

이 세트의 작은 연속타격으로 인해 흥미를 느끼는 제조업체들은 아마도 "어디를 스캔해야 하지?"라는 생각으로 가득 찰 것입니다.

당신이 말하지 마세요, 화산 엔진도 숨김이나 은폐를 계획하지 않은 것 같습니다.

앞서 언급한 BMF 프레임워크는 지난해에 이미 오픈 소스로 공개되었으며, 최신 버전인 BMF Lite도 직접 오픈 소스로 공개되었습니다.

대체로 말하자면, 현재 대형 모델의 발전은 계속되며, 비디오 AI 회사간의 경쟁 또한 더욱 치열해질 것이다.

하지만 모두가 문을 닫고 독립적으로 노력하며 결과물을 겨루며, 제품으로 의사소통을 할 경우 경쟁은 너무 많고 협력은 부족해 보일 수 있습니다.

중국의 Short video 앱 중 가장 숙련된 팀 중 하나로 ByteDance는 자사의 내부 기술과 프레임워크를 오픈소스로 여러 차례에 걸쳐 배포한 횟수를 가지고 있는 화산 엔진을 갖고 있습니다.

특별히 제공되는 BMF 프레임워크와 그것이 지능형 컴퓨팅과 지능형 코딩/디코딩으로 이루어진 전체적인 지능형 기반은 기업들이 상당한 시간과 비용을 절약하는 데 도움이 되며, AI 프로젝트를 더 잘 추진하도록 돕습니다.

이러한 경쟁과 협력이 공존하는 태도가 중국 AI가 가장 원하는 장면입니다.

단독으로 빛나는 가지는 숲이 되기 어렵고, 만 가지와 천 가지의 다양한 색깔이야말로 봄이라 할 수 있습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다