July 1, 2025

2025년 6월, 모듈화와 창작의 경계에서-AI, 예술, 미학, 그리고 빡침

2025년 6월, 모듈화와 창작의 경계 - 분류 모델의 실전 적용과 콘텐츠 창작의 확장

서론 - “만들기”에 집착한 한 달, 그리고 그 뒤에 남은 것

6월은 확실히 ‘만들기’에 집착한 달이었다. Remotion 기반 유튜브 팟캐스트 시스템, AI 음성 대화 시스템, 글리치 아트, 쉐이더 실험까지.

2025년 6월은 ISYE6501 과목에서 배운 분류(Classification) 모델의 개념을 실제 시나리오에 적용하고, 이를 통해 콘텐츠 창작의 영역을 확장하는 데 집중했던 달. SVM과 KNN 같은 분류 모델을 펜싱 경기 데이터 분류에 적용하는 아이디어를 생각해봤다.

블로그 포스팅을 팟캐스트 스크립트로 변환하고, 팟캐스트 주제를 구상하며 스토리텔링 역량을 강화했다.

6월은 확실히 ‘만들기’에 집중한 달이었다. Remotion 기반 유튜브 팟캐스트 시스템부터 시작해서 AI 음성 대화 시스템, 글리치 아트, 그리고 쉐이더 실험까지. 각각 다른 영역 같아 보이지만, 돌이켜보니 하나의 공통된 흐름이 있었다. 뜬금없이 걸린 독감 때문에 너무 아파서 일주일간은 좀 골골댔지만 그래도 뭔가 많이 진행한 것 같다.

뜬금없이 걸린 독감에 골골대며, 그래도 뭔가 많이 진행한 것 같다고 자위하는 나 자신을 위로해본다.

세금 정산하느라 정신 없던 5월 말과 6월 초

제목이 곧 내용…하…택스리턴은 왜 매번 해마다 힘들까.

모듈화와 Scalability - DRY 원칙

Remotion 프로젝트에서 EP0와 EP1-shorts1의 코드 중복을 발견했을 때, 나는 내심 “이건 좀 아니지 않나?” 싶었다. 거의 동일한 로직이 반복되는 걸 보며, DRY(Don’t Repeat Yourself) 원칙을 외치며 _Shared 폴더 구조를 설계했다.

folder-structure

├── _shared/
│   ├── types/podcast-types.ts
│   ├── utils/enhanced-srt-parser.ts
│   ├── components/
│   ├── hooks/
│   └── helper/

SRT 파일과 설정 파일만으로 완성된 비디오를 생성하는 시스템. 화자별 자막 스타일링, 효과음, 서브캡션, 미디어 삽입까지. “이 정도면 자동화지 않겠는가?“라고 생각했지만, 현실은 달랐다. 진짜 자동화라면 아무 생각 없이 버튼 하나 누르면 끝나야 하는데, 내 작업은 오히려 더 복잡한 설정과 세밀한 컨트롤이 필요한 시스템이 되어버렸다.

솔직히 말하자면, “자동화를 이뤘다”는 표현에 대해 반박하고 싶다. 딱히 자동화를 이룬 구석은 없는데 왜 그렇게 생각하는 걸까? 결국은 내가 일일이 설정을 만져야 하고 코드를 수정해야 하는 상황이 계속 발생한다. 진짜 자동화라면 아무 생각 없이 버튼 하나 누르면 끝나는 건데, 내 작업은 그렇지 않다. 오히려 더 복잡한 설정과 더 세밀한 컨트롤이 필요한 시스템을 만들고 있다.

“AI쓴 딸깍충”이라는 소리를 들으면 빡친다.

내 전공이 파인아트+컴공인데, 데이터 분석 석사까지 얹으려고 피똥 싸고 있는 내가 등신이라 뭐 생성형 모델을 쓸 줄 몰라서, 스스로 개발코드랑 모델링을 직접하고 있겠냐? LLM AI를 딸깍하고 만들 퀄리티가 내가 만든것들의 수준이란 이야기인지, 아니면 걍 모든 디지털/프로그래밍 알고리즘을 활용한 작업들은 다 LLM AI 생성물이라고 오해를 받는건지…?

LLM AI의 도움을 받는 곳은 생성물이 아니라 파이프라인 제작과 스크립트 보정을 위한 스켈레톤 베이스를 만드는 데 쓰지 생성물 제작에 쓴다고 다짜고짜 몰아 붙여지는 걸 보니 대체 얼마나 사회적 신용이 다들 바사삭 없어진건가 싶다.

LLM AI의 도움을 받는게 코드를 내가 짰을 때 리뷰하거나 프로토타입 만들때 아이디어 브레인스토밍하거나 대화 스크립트 조정할 때야 도움을 받겠지만, 그게 님들이 생각하는 프롬프트 덜컥 넣고 파라미터 마우스 스크롤로 딸깍하며 얹어 생성된 소스를 쓰는 뭐 그런건 줄 아냐고!!

아아아아아아아악!!!씨빠아아아 전공자인 나보다 모르면 말이라도 좀 쳐듣던가 개시바아아아아아아아알!!!

그게 LLM AI 생성물로 다 보이면 본인들도 그렇게 만들어보던가…? 모두가 똑같이 쓰는 툴인데 당신이 똑같이 내가 한 작업물처럼 생성을 못한다면 내가 수작업을 했다는 생각이 왜 안 들고 당신들이 모르는 뭔 요술같은 프롬프트를 썼을 거라 생각하는걸까? 당신이 똑같은 툴로 똑같이 생성을 못하는 작업물은 결국 작업한 작업자가 수작업을 했다는 생각을 못하는 건가…?

누굴 탓하겠나. 잘못된 기술과 정보를 마구 상품팔이로 마케팅하며 팔아대는 테크계가 잘못된 인식을 전파해서 사회적 신뢰도를 마구 떨어뜨린 탓이지.

잠시 진정하고 다시 이어서…

음성과 TTS의 만남

구글 바드 TTS+ 엣지 브라우저에서 제공되는 TTS를 발견하면서 든 생각: “내가 마이크로 말하면 → STT → 웹 LLM AI (이 경우 Gemini API를 프로모듈로 사서 토큰 리퀘스트를 추리는 스크립트를 짜서 연결) → TTS → 스피커 출력”하는 음성 대화 시스템을 만들고 싶다는 거였다. 16GB 램의 맥 미니로 로컬+클라우드 하이브리드 모듈로 구동하는 걸 목표로 했다.

flowchart LR
    subgraph "🎤 입력"
        A["음성 입력<br/>(마이크)"]
    end
    
    subgraph "⚙️ 처리 파이프라인"
        B["STT<br/>(음성→텍스트)"]
        C["웹 LLM AI<br/>(내가 제공한 대본 가이드에 맞춰 전처리)"]
        D["TTS<br/>(텍스트→음성)"]
    end
    
    subgraph "🔊 출력"
        E["음성 출력<br/>(스피커)"]
    end
    
    A --> B --> C --> D --> E
    
    classDef inputStyle fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
    classDef processStyle fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
    classDef outputStyle fill:#e8f5e8,stroke:#388e3c,stroke-width:2px
    
    class A inputStyle
    class B,C,D processStyle
    class E outputStyle

Electron + React + TypeScript 스택으로 메인을 구성하고, Python(uv 관리)으로 보조 서비스를 만드는 구조. 왜. 자꾸. 멀쩡히. 복잡하게 가려고 하는 걸까 싶지만…하지만 완전한 툴은 아직 만들진 못했고 이런 청사진의 일부로 직접 엣지+구글 TTS에 대본가이드를 줘서 읽은 음성출력을 직접 녹음 후 로직프로(DAW…이러라고 애플이 만든 프로듀싱 툴이 아닐텐데 ㄲㄲㄲ)에서 후처리 편집하거나 TTS 출력전에 먹일 엔코딩 샘플링을 위해 VoCoder 샘플링을 만드는 수제 노가다를 하고 있다…ㅎ…ㅠ

구글 바드 TTS와 엣지 브라우저의 TTS를 발견하고, “내가 마이크로 말하면 → STT → 웹 LLM AI 로 대사를 이해해서 답변을 회답→ TTS → 스피커 출력”하는 음성 대화 시스템을 만들고 싶었다. Electron + React + TypeScript, 그리고 Python까지 동원해서 하이브리드 모듈을 만들겠다는 야심찬 계획.

하지만, 완전한 프레임워크는 아직 만들지 못했다. 결국은 TTS로 출력된 음성을 직접 녹음해서 DAW(Logic Pro)에서 후처리하는, 수제 노가다의 연속이었다.

“자동화”라는 단어가 이렇게 허망하게 느껴질 줄이야.

요즘은 AI 자동화라는 말만 들어도 헛웃음이 나온다. 자동화라 쓰고, 결국은 수동화의 연속. ‘자동화’라는 단어에 속지 말자. 진짜 자동화는, 내가 아무 생각 없이 커피 한 잔 마시는 동안 모든 게 끝나는 것이다. 현실은, 커피가 식을 때까지도 버그와 싸우고 있다.

창작 도구로서의 기술 - KNN, 글리치 아트, 그리고 미적 결함

KNN 알고리즘 2분 컷 강의 영상을 처음 만들어봤다. 데이터 분석 시험 공부하면서 “이걸 영상으로 만들면 어떨까?” 싶어서 시작한 건데. KNN 알고리즘 2분 컷 강의 영상을 만들면서, 데이터 분석 시험 공부를 억지로라도 흥미를 붙이려고 용을 썼다.

그리고 디더링, 글리치 아트 작업. 내가 찍은 사진들에 displacement, glitch, dithering을 접목하는 실험들. 기술적 결함을 미적 요소로 전환하는 과정이 재미있었다. 이게 바로 옛날 소싯적 예대-현대미술 크리틱과 창작 수업에서 배운 “목적성을 가진 창작”이 기술 작업에도 그대로 적용되었다. Dithering 비쥬얼 아트 스타일 개발의 결과물은 다른 포스트에 정리해서 올릴 예정이다.

대학원 수업에서 배운 분류(Classification) 모델의 개념을 실제 시나리오에 적용했다. KNN과 SVM을 펜싱 경기 데이터 분류에 적용하는 아이디어, 그리고 KNN 알고리즘 2분 컷 강의 영상을 만들며 데이터 분석 시험 공부를 억지로라도 흥미를 붙이려고 했다.

6월은 데이터 과학의 핵심 개념들을 가장 ‘나답게’ 풀어내는 강의 자료 개발에 매진했던 달이다. ’클러스터링(Clustering)’과 ‘데이터 전처리/이상치 탐지’ 개념을 K-pop 댄스 커버, 팬아트 같은 서브컬처와 연결해서 설명하는 강의 자료 계획안을 개발했다.

BL 웹소설의 특정 요소들(키워드, 캐릭터 관계, 전개 속도)이 독자들의 선호도나 조회수에 어떤 영향을 미치는지 ‘선형회귀’로 예측해보는 가이드도 작성했다. 왜 어떤 소설은 대박 나고 어떤 소설은 망하는가를 데이터로 분석해 볼 수 있을 거라는 미친 상상.

가상과 현실의 경계를 오가는 팟캐스트

구글과 엣지 TTS를 연결해서 “가상 AI 버츄얼 남돌과의 달콤한 영상통화”라는 팟캐스트 기획. 이런저런 이야기들을 다 다루는 팟캐스트지만 달콤한 연애 시뮬레이션 포맷으로 포장하는 아이디어였다.

STT로 내 음성을 텍스트로 변환(위스퍼 사용) → 가이드에 맞게 응답 생성(미리 스크립트 및 연기 디렉팅 반영…이쯤되면 걍 드라마시디 PD 아닐까) → TTS로 음성 출력. 그 후 출력된 모든 소스들을 모아 영상 작업을 Remotion으로 처리하는 방식. 가장 첫번째 에피소드 파일럿을 유튜브에 발행했다.

비쥬얼 프로토타입=>코드=>영상 렌더링

서로 다른 영역의 기술들을 드디어 하나로 통합하는 프로토타입들을 본격적으로 만들기 시작했다.

graph TD
    subgraph "🎨 비주얼 아이디어"
        A["터치디자이너<br/>Figma 노트"]
    end
    
    subgraph "⚡ 쉐이더 개발"
        B["WebGL 쉐이더<br/>작업"]
    end
    
    subgraph "🔧 컴포넌트화"
        C["Remotion<br/>React 컴포넌트"]
    end
    
    subgraph "🎬 최종 출력"
        D["비디오 렌더링<br/>완성품"]
    end
    
    A --> B --> C --> D
    
    classDef ideaStyle fill:#fff3e0,stroke:#f57c00,stroke-width:2px
    classDef shaderStyle fill:#e8eaf6,stroke:#3f51b5,stroke-width:2px
    classDef componentStyle fill:#e0f2f1,stroke:#00695c,stroke-width:2px
    classDef outputStyle fill:#fce4ec,stroke:#c2185b,stroke-width:2px
    
    class A ideaStyle
    class B shaderStyle
    class C componentStyle
    class D outputStyle

Remotion에서 타입스크립트랑 리액트 등 프론트엔드 개발 스택을 활용할 수 있고, 글리치 아트나 디더링 프로토타입 이미지 작업을 하며 Figma로 이미지 작업을 하니까 UX/UI 디자인 구상에 필요한 툴을 익히기 좋다.

어떤 이는 애프터 이펙트나 다빈치 리졸브 등 비디오 에디팅 툴을 쓰는 게 더 낫다고 한다. 그 말이 맞긴 하지만, 에디터 툴을 쓰며 마우스로 일일이 패스를 그리며 컷 편집하는 거랑 내가 머릿속으로 정확한 타이밍에 어떤 편집을 할지 스토리보드가 확고하다면 파이썬이나 타입스크립트를 통해 가이드를 주며 애셋 배치를 하는 거나 내 입장에선 작업 속도가 도찐개찐이다. 물론 나에게 그렇단 이야기.

대한민국의 대선

진짜 빅빅빅 이벤트. 결과는 이재명 대통령 당선. 사필귀정. 당연히 될 사람이 되었다. 하지만 워낙 자격이 되던 사람이 소셜미디어에서 맥락도 없는 조리돌림 당하며 과하게 척결 당하는 꼬라지도 많이 보고 이성이라는 게 존재하는 건가 싶을 정도로 그냥 다들 자기이야기가 가장 중요하고 자기 말을 들어달라 남에게 우악스럽게 소리지르는 이들만 잔뜩이니 당선 확정이 뜰 때까지 마음을 놓을 수 없었다. 지난 대선 트라우마도 있고…

하지만 정말 원하던 분이 대한민국의 대통령이 되어 너무 기쁘다. 나는 이제 더 이상 한국사람이 아니지만 모국에 정서적 뿌리를 거둘 수가 없다. 내가 떠나온 모국이 항상 잘 되었음 좋겠다.

그런 의미에서 내 나름대로의 헌정을 끝마치기 위해 돼지강점기의 막기에 저지른 비상계엄 시점부터 5월 30일까지 기록한 사건들 중 마저 못 끝난 기사들을 한데 모아 발행하였다.

그 모든 포스트들을 한데 모은 페이지는 아래 링크로.

KR-Memo-Map-of-Contents-timeline-event-log-since-coup-24dec

융합적 사고가 필요하다지만 정작 그런 사고를 등용할 줄은 모르는 사회

옛날부터 개발, 경영, 마케팅, 디자인, 예술, 테크를 딱 구별하는 업계나 학계의 인식에 신물이 났다. 예술대학을 다닐 때 그때 배웠던 순수미술 작업을 하며 관객들의 반응과 사회 시사를 생각하고, 그것에 대해 작업자라는 내가 어떤 목적성을 가지고 작업을 하며 메시지를 전달하고자 하는 고민이 순수미술이 가르치는 가장 핵심적 가치다. 예대에서의 4년은 그것을 체화시키는 훈련 과정이었다.

이 철학은 내가 사회인으로서 첫걸음을 딛은 순간부터 업계를 떠나 안식년을 가지고 있는 지금도 변하지 않았다. 어떤 목적을 위해 CRO A/B 테스팅을 진행하느냐, 기업의 브랜딩과 정체성은 어떤 목적을 가지고 방향을 진행하며 그것에 맞게 어떻게 경영을 하느냐, 오디언스의 심리와 그들이 원하는 것, 내가 제공할 수 있는 공급의 간극을 이해하고 그것에 맞춰 UX를 하는 프로토타이핑… 그 모든 것은 따로 떨어질래야 떨어질 수가 없다.

graph TD
    subgraph "🎯 목적성 중심 사고"
        A["순수미술<br/>메시지 전달"]
        B["CRO/A/B 테스팅<br/>목적 달성"]
        C["브랜딩<br/>정체성 구축"]
        D["UX 프로토타이핑<br/>사용자 경험"]
        E["데이터 분석<br/>정량적 근거"]
    end
    
    F["🔄 통합적<br/>창작 철학"]
    
    A --> F
    B --> F  
    C --> F
    D --> F
    E --> F
    
    classDef coreStyle fill:#e8f5e8,stroke:#2e7d32,stroke-width:3px
    classDef elementStyle fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px
    
    class F coreStyle
    class A,B,C,D,E elementStyle

허나 아쉽게도 산업에선 정작 모든 직군을 따로 떨어뜨리며 특정 스택에만 몰입하며 그 스택에 몇 년의 경력을 가졌나 따위의 쓸데없는 것들만 묻고 있다.

내가 어떤 스택에 어떤 전문 기술을 가지고 있는 것보다 어떤 목적성을 가지고 어떤 작업을 진행할 것이냐, 그것에 대해 나는 얼마나 이해하고 있으며 내가 이해하고 진행하고자 하는 것을 매니저나 다른 팀 동료들이 얼마나 서포트를 해줄 수 있고 나는 그에 어떤 것을 협조하며 생산하여 화답할 것인가가 진정한 인력으로서 내가 일하는 목적성이 확고해야한다.

인사팀이고, 회사고, 사람들의 생각이고 말로만 진정한 가치와 진실, 그리고 안정적인 효율과 생산성을 추구한다지만 정작 그들의 행동은 정반대라 참 매번 헛것들을 쫓는 기분이다.

모듈화와 문서화의 현실적 이유

협업이나 커뮤니티 구축에 어떤 영향을 미칠지는 잘 모르겠다. 요즘은 강호의 도리가 무너져 남의 작업이나 남의 아이디어를 훔쳐가서 지꺼인 거마냥 바이럴을 위해 쇼츠나 틱톡, 릴스로 무작위 편집해 가는 시발새끼들이 많아서.

그래도 모듈화나 문서화를 하는 습관은 내가 작업하다 길을 잊었을 때 어떤 식으로 작업을 그때 당시 했는지 다시 회고하는 계기가 되기도 하고, 내가 나중에 작업에 대해서 설명을 할 때 그 언어를 구축하는 자료가 되기에 꾸준히 하게 되는 것 같다.

Model 학습 그리고 시험 공부

대학원 수업을 들으며 여러 통계 모델에 대한 이해가 참 안가서 혼자 별별 스토리텔링을 갖다 붙이며 공부를 하려고 참 별 짓을 다했다. 이 내용들로 곧 강의 영상을 휘뚜루마뚜루 찍어서 시리즈를 낼 것이다.

성취감의 순간과 융합적 사고의 뿌리

이전에 구현하지 못했던 기술이나 문제점을 해결해, 드디어 내가 생각하던 무언가를 구현할 때 가장 즐겁다.

graph LR
    subgraph "💡 구현 전"
        A["상상 속 비전<br/>머릿속 아이디어"]
    end
    subgraph "⚡ 돌파 순간"
        B["기술적 문제<br/>해결"]
        C["새로운 구현<br/>성공"]
    end
    subgraph "🎉 성취감"
        D["비전 실현<br/>완성된 결과물"]
    end
    A --> B --> C --> D

나는 왜 이렇게까지 다양한 분야를 넘나들며 작업하는가? 혹시 본질적으로 ‘경계’라는 것 자체가 허상은 아닐까? 예술가와 개발자, 기획자와 데이터 과학자라는 타이틀은 결국 사회가 부여한 역할일 뿐, 내게 중요한 건 ‘무엇을 만들고 싶은가’라는 질문 하나뿐이었다.

시간 부족의 진짜 원인들

콘텐츠 제작 시간이 부족한 건 여러 이유가 복합적으로 작용한다:

대본을 쓰다가 몇 부분이 자연스럽게 흘러가지 않으면 그냥 넘어가지 못하고 계속 붙잡고 있다
대학원 공부를 하면서 작업을 병행하는 것도 버겁다
업계 은퇴 후 커리어 전환 과정에서 경력 단절에 대한 불안감 때문에 다시 구직사이트를 돌게 된다
혹시 내가 생각하는 이미지나 상상, 비전을 구현하기에 너무 높은 기준을 나 스스로에게 요구하나…?

코레오그래피를 구현하는데 춤 연습도 그럴싸해야 할 것 같고, 안무 연습이나 카메라 줌 촬영 기법도 뭔가 탐탁치 않다.

영상 디자인이나 작품 연출에 필요한 스킬업의 러닝커브가 높은데, 이걸 따라가다 보니 정작 뭔가 끝맺음이 된 콘텐츠 쇼케이스가 맘에 탐탁치 않게 모인 것 같다.

이달의 달성한 것들

분류(Classification) 모델 심화 학습
- 입력 데이터를 특정 카테고리로 분류하는 Classification의 기본 개념을 이해했다.
- Feature, Label, Training Set, Test Set 등 분류 모델 구축에 필요한 데이터의 구성 요소를 학습했다.
- KNN의 작동 원리(거리 계산, 다수결 투표)를 이해했다.
- SVM의 ‘최대 마진’ 개념과 Support Vector의 역할을 학습했다.
- 스케일링 및 표준화의 중요성을 깨달았다.
데이터 분류 아이디어 구체화
- 예측 변수 선정 및 SVM과 KNN에 적용하는 예시를 통해 실제 구현 가능성을 탐색했다.
- 교차 검증을 통해 모델의 성능을 평가하는 방법을 학습했다.
콘텐츠 창작 및 스토리텔링 확장
- 블로그 포스팅을 팟캐스트 스크립트로 변환하는 AI 어시스턴트 프롬프트를 개발했다.
- 팟캐스트 주제 구상: ADHD, 관계 성장, 계획과 실행 딜레마, 깊은 생각, 소속과 정체성, 창작/학습/AI 등.

느낀 점 및 배운 점

6월은 이론적인 머신러닝 지식을 실제 문제에 적용해보는 경험을 한 달이었다. 특히, 분류 모델이 단순히 데이터를 나누는 것을 넘어, 복잡한 현상을 이해하고 예측하는 걸 익히며 새로운 가능성을 둘러보고자 했다. 또한, 콘텐츠를 새로운 기술들을 접합해 제작하고, 다양한 미디어 형식으로 스토리텔링을 확장하는 가능성을 확인하는 한 발자국을 디딘 것 같다.

기술과 창작 사이에 경계는 없다. 코드도 창작이고, 창작도 시스템이다. 7월에는 이 모든 조각들을 어떻게 연결할지 고민해봐야겠다. 차라리 이 모든 걸 하나의 통합된 창작 도구로 만드는 게 맞는 것 같다. 각각을 분리해서 전문가가 되는 게 아니라, 모든 걸 연결해서 내가 하고 싶은 이야기를 할 수 있는 사람이 되는 것. 그게 내가 6월에 무의식적으로 추구했던 방향이었나 보다.

“기술과 창작 사이에 경계는 없다. 코드도 창작이고, 창작도 시스템이다.”

다음 단계 구상

개발된 강의 자료들을 실제 라이브 강의나 워크숍으로 전환하여 진행해 보는 것을 고려해 보자. 오프라인 또는 온라인 강좌를 통해 실시간 피드백을 받고, 참가자들과의 질의응답을 통해 콘텐츠의 깊이와 전달력을 더욱 향상시킬 수 있지 않을까?