오늘은 개발하고자 하는 모바일 앱의 화면 설계를 시켜보았는데요, 오퍼스 4.6이 나온 김에 HTML로 앱처럼 보이게 해서 화면 설계를 시켜보았습니다. 사실상 웹디자인과 동일한 것 같구요.

아래 프로세스로 진행해보았습니다.

  1. 디자인 가이드라인 정립(대화형으로 브랜드명과 컬러부터, 세부 컴포넌트 및 규약까지 모두 새로 지정해서 스킬로 만들어줄 것을 요청)
  2. 기존에 정리해뒀던 기능 요구사항 명세 + 디자인 가이드라인으로 '알아서' 화면 설계를 부탁

그 결과 꽤나 만족스럽게 결과가 나왔고, 아래는 개인적인 후기입니다.


1. Opus 4.5에 비해 이모지 사용 비율이 약간 늘었습니다.

  • 제가 사용자 메모리에 '명시적인 요청이 있기 전까지 이모지를 사용하지 마세요'라고 적어뒀는데 어찌된 일인지 이를 참고하지 않았었습니다. 다만 Skills에는 이런 내용이 누락되어 있었습니다. Skills의 다른 모든 가이드라인을 잘 따라준 것으로 봐서, 디자인 가이드라인 스킬에 이모지 사용 금지를 명시해두면 해결될 문제 같긴 합니다.

2. 명시되지 않은 부분을 자의적으로 해석하는 정도는 비슷하나, 그걸 해결하는 방법이 자연스러워졌습니다.

  • 디자인 가이드라인을 지정해주지 않은 컴포넌트는 어떻게 처리될까? 싶었는데요, 그 컴포넌트는 다른 컴포넌트에 비해 이질적인 색상이 사용되었습니다. 어울리지 않는 것은 아니었습니다만, 제가 원하는 방향과는 괴리가 있어서 따로 수정을 요청했습니다.
  • 저는 네이비 계열과 그레이 계열의 투톤 디자인을 하고 있었는데, 갑자기 자연스러운 핑크빛 그라데이션 연하게 배경으로 깐 화이트 카드 디자인을 사용해서 조금 놀랐습니다. 어울리지 않는 디자인은 아니었습니다만(Secondary 색상이 들어가면 좋은 부분이었거든요), 기존 지시에서 어울리는 색상을 찾는 대신 '자의적으로' 자기가 생각하는 어울리는 색상을 골랐다는 점에서 놀랐습니다.
  • 과거에 비슷한 일을 Opus 4.5로 시도했을 때, 마찬가지로 자의적 해석을 시도했고, 어울리지 않는 색상(보통 보라색 그라데이션 계열)을 사용했습니다. 반대로, Codex는 5.2시절에 시도했을 때, 자의적인 해석을 넣지 않고 최대한 기존 지시에서 힌트를 찾고자 하는 모습을 보였습니다.

3. 역으로 질문하는 능력이 대폭 늘었습니다.

  • 제가 대화형으로 디자인 가이드라인을 정립하는 것을 요청했는데, 과거와 다르게 꽤나 디테일한 부분까지 거꾸로 물어보았습니다.
  • iOS 앱의 디자인 가이드라인이라니까 선택지형으로 "Apple의 HIG를 따른다", "Google의 머테리얼 디자인을 따른다", "기존 가이드라인(다른 스킬)을 따른다", "기타 (입력)" 이런식으로 선택지를 제공해주었습니다.
  • 이는 Opus 4.5에서 겪은 일이지만, 이정도로 적극적으로 저에게 질문을 하지 않았습니다. 결과적으로 저는 더 많은 정보를 클로드에게 제공할 수 있었고, 더 구체적이고 나은 결과가 나왔습니다. Opus 4.5에서 저는 한 작업에서 3턴 이상 질문을 받지 않았었습니다.

4. 토큰 비용은 동일하다 했으나, 체감상 더 빨리 소진되었습니다.

  • 더 구체적이고 많은 작업을 한번에 수행한 탓인지 몰라도, 작업에 비해 빨리 소진된 느낌입니다. 특히 구체적인 지시를 유도하는 3번과 같은 성질 및 더 깊은 생각을 유도하는 2번의 성질 등 때문인지, 한번에 출력하는 출력량이 많아졌습니다(즉, 출력단위가 커졌습니다.). HTML 파일 좀 쪼개서 만들면 되는데, 굳이 전부 생각했다가 한번에 출력하려고 해서 CLAUDE_CODE_MAX_OUTPUT_TOKENS를 조정해달라며 오류를 뱉더니, "더 작은 단위로 쪼개서 만들겠다"고 스스로 말한 후 겨우겨우 한번에 생성시켰습니다.
  • 즉, 출력 단위가 커지고, 총 출력량이 많아진 것 같습니다. 모델 자체의 특성일지도 모르겠지만, 저는 2번과 3번에 따른 부가적인 효과라고 생각합니다.

성공적으로 11개 화면을 가진 모바일 앱의 화면 설계를 마치고, 오퍼스 4.6에 대한 전반적인 소감은 '참 사람 친화적으로 잘 만들었다'는 생각입니다.
프롬프팅으로 해결 볼 수 있는, 더 상세한 가이드로 해결할 수 있는 그런 문제들을 자연스러운 역질문을 통해, 그리고 스스로 자연스러운 해결책을 통해 해결하는 것을 보고, 아마 전문적으로 디렉팅을 할 자신이 없다면 최고의 모델이 아닌지... 생각해봅니다.

전문 개발자가 아닌 경우 그 형질이 더 잘 드러날 것이라고 보고 있습니다. 오늘 GPT-OSS:20b 로컬 모델에 적당한 난이도의 알고리즘 문제도 풀려보니까 잘 풀더라고요. 이젠 LLM이 순수 개발 능력(알고리즘, 자료구조 등)은 이정도 성능의 모델이면 더이상 차이가 없구나(정확히는 '거의 없구나') 싶은 느낌도 들었습니다.