The Korean Society Of Automotive Engineers
[ Article ]
Transactions of the Korean Society of Automotive Engineers - Vol. 32, No. 12, pp.1003-1014
ISSN: 1225-6382 (Print) 2234-0149 (Online)
Print publication date 01 Dec 2024
Received 02 Aug 2024 Revised 09 Sep 2024 Accepted 09 Sep 2024
DOI: https://doi.org/10.7467/KSAE.2024.32.12.1003

인공지능 플랫폼을 활용한 차체 디자인 방법론의 고찰

구상*
홍익대학교 산업디자인학과
An Observation on Methodology for Body Shape Design Developing with AI Platform
Sang Koo*
Department of Industrial Design, Hongik University, Seoul 04066, Korea

Correspondence to: * koosang@hongik.ac.kr

Copyright Ⓒ 2024 KSAE / 229-08
This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium provided the original work is properly cited.

Abstract

This study is expected to have implications for the methodology of using AI platforms to develop creative shape ideations in the early phases of vehicle body design by analyzing scripts and corpus. The research first reviewed concepts of machine learning and the hierarchy of text as elements of image-describing tools. The generated images by the script and corpus are applied to basic prompts, consisting of image prompts, or advanced prompts, which comprise image prompts, text prompts, and parameters. The results revealed that using an AI platform in developing vehicle body design has the following implications: word choice matters for more specific synonyms that work better in many circumstances instead of big, gigantic, enormous, or immense; plural words leave more chances; it is better to describe what is wanted instead of what is not preferred; and simpler prompt descriptions with fewer details result in more variety and creativity in generative images but presents less control.

Keywords:

AI platform, Body shape design, Script, Corpus, Body design descriptive words

키워드:

인공지능 플랫폼, 차체 조형, 명령어, 말뭉치, 차체 디자인 서술어

1. 서 론

현재와 미래의 디지털 기술에서 가장 큰 화두 중 하나는 인공지능(AI; Artificial Intelligence)의 활용 가능성이 어디까지인가 일 것이다. 이에 관한 관심은 디자인 개발 분야에서도 역시 높다. 그것은 창의적 영역이라고 여겨져 온 조형 개발의 일부 작업에서 이미 인공지능 플랫폼을 활용한 사례를 볼 수 있기 때문이다.

실제로 최근에는 인공지능 학습을 기반으로 하는 생성형 인공지능 플랫폼에서 다양한 창의적 시도가 이루어지고 있는 것을 볼 수 있다. 그러나 이와 관련된 선행 연구1)에서 도출된 결론은 인공지능 플랫폼을 통한 조형은 결과물의 정확한 특성을 예측하기 어렵다는 점과 그를 보완하는 방법으로 형태 생성을 위한 명령어의 심층적 연구가 요구된다는 것이었다. 그에 따른 후속 연구로써 본 논문은 인공지능 플랫폼의 입력 명령어를 위한 프롬프트에 활용되는 서술어의 특징 고찰과 적용 사례를 통한 인공지능을 활용한 조형 방법론의 시사점 도출을 목표로 한다.

이를 위한 본 연구에서는 서술어로써 텍스트(Text)를 통해 이미지가 생성되는 구조의 인공지능 플랫폼에서 서술 형식의 프롬프트(Prompt)와 여러 종류의 어휘가 결합한 형식의 코퍼스(Corpus)라는 개념의 말뭉치에 의한 이미지 생성의 방법론을 탐구하였으며 그 연구 내용은 다음의 세 가지로 요약할 수 있다.

  • ⋅ AI 플랫폼에서 요구되는 유형의 정보
  • ⋅ 이미지 서술어 요소로서의 텍스트 위계
  • ⋅ 조형 작업의 이미지 서술어의 코퍼스 유형

2. 인공지능 학습과 도구

2.1 인공지능 학습의 고찰

인공지능은 그 정도에 따라서 단순 자동화(Automation)와 완전 자율성(Autonomy) 등으로 구분된다. 사람의 일을 기계(Machine)에게 맡길 때 기계가 규칙에 따른 범위 내에서 일을 처리하는 것을 낮은 단계의 자율성이라고 구분하며 자동화되었다고 표현한다. 반면에 일을 위임받은 기계가 주어진 규칙 대신 스스로 판단해 모든 것을 수행해낸다면 완전한 자율성을 지닌 것이라고 본다.2) 그러므로 인공지능 기술에서 핵심은 자율성의 수준이며, 이는 컴퓨터가 스스로 학습(Learning)할 수 있는가의 여부에 달려 있다.

학습이란 주어진 상황 속에서 반복되는 경험을 통해 같은 패턴을 찾아내는 것으로 정의된다. 이를 바탕으로 컴퓨터가 기본적인 규칙이 주어진 상태에서 입력된 정보를 토대로 학습 행동을 하는 것을 머신 러닝(Machine learning) 이라고 총칭하는데, 이 용어를 처음 사용한 것은 1960년경 IBM의 컴퓨터 과학자 아서 사무엘(Arthur Samuel)3)이라고 알려져 있다.

전술한 바와 같이 인공지능 기술에서 핵심은 자율성의 수준이며, 이를 적용하는 것에서 해결하려는 문제의 난이도에 따라 ‘감독학습(Supervised learning)’, ‘비감독학습(Unsupervised learning)’, 그리고 최상위 단계의 ‘강화 학습(Reinforcement learning)’ 등으로 나뉜다.

감독학습은 문제와 정답이 존재하는 데이터를 통해 패턴을 학습하는 것이지만, 비감독 학습은 문제와 정답이 존재하지 않는 상태에서 비슷한 특징끼리 군집과 분류 과정을 거쳐 새로운 데이터에 의한 결과를 예측하는 것이다. 또한 능동적 학습법인 강화 학습은 분류할 수 없는 데이터를 가진 컴퓨터가 자신의 낸 결과에 대한 보상이나 벌을 받으며 학습하는 것이다.4)

대표적 사례는 규칙을 정해놓지 않은 게임으로, 컴퓨터는 가상 환경 속에서 다양한 상황을 접하며 높은 점수를 얻는 방법을 찾아가며 학습하는데, 이것이 예측 불가능한 실제 상황에 적용할 수 있는 학습 방법이다. 그리고 이러한 인공지능의 학습이 인공 신경망에서 발전한 것을 딥러닝(Deep learning)으로 구분하며, 사람 뇌의 뉴런과 유사한 정보 입출력 계층을 활용해 데이터를 학습한다.

딥러닝은 머신러닝 학습 방법의 하나이지만, 분류할 데이터를 스스로 학습할 수 있다는 점에서 학습 데이터가 수동적으로 제공되는 머신러닝과 구분되며, 인공지능 영역을 확장하는 데에 기여했다. 실제로 딥러닝은 대량의 데이터를 학습하고 복잡한 문제를 해결하는 머신러닝 개념의 하나로서 이론이 먼저 발전했으며, 근래에 고성능 컴퓨터 개발에 따른 방대한 양의 데이터 연산이 가능해지면서 실체가 나타나기 시작한 것이다.

2.2 인공지능 도구의 활용

딥러닝 활용의 대표적 예시는 음성 인식(Voice recognition), 이미지 인식(Image recognition), 텍스트를 통한 자연어 처리(Natural language processing), 생성형 모델링(Generative modeling) 등으로 다양한 유형의 비구조적 데이터를 처리할 수 있으며, 과적합, 속도, 기능 등의 문제를 극복하기 위한 기법이 개발5)되었다.

Table 1은 딥러닝의 활용 영역을 보여주지만, 여전히 다양한 한계가 존재하고 있다. 이러한 한계성은 AI 플랫폼을 기반으로 하는 이미지 추출이나 전개에서도 나타난다.

Examples of deep learning usages

「미드저니(Midjourney)」와 같은 인공지능 플랫폼(https://midjourney.com)은 텍스트를 기반으로 하는 이미지를 생성한다. 예를 들어 프롬프트에 「shihtzu, cute」와 같은 명령어를 입력하면 Fig. 1과 같은 네 장의 ‘귀여운 시츄’의 정 사각형의 이미지를 제시해주지만, 그 ‘귀여움’의 정도나 감성 차이에 대해 상세하게 구분된 이미지를 얻을 수는 없다.

Fig. 1

‘shihtzu, cute’ imaging by Mid Journey flat form, generated on 2024-07-25

즉 입력한 명령어에 의한 결과를 정확히 예측하기 어려우며, 여러 시도 끝에 우연히 좋은 결과를 얻더라도 그 원인을 정확하게 역추적하기는 어렵다는 점 등은 생성형 인공지능 플랫폼 활용에서의 한계이다. 그러나 귀여움을 나타내는 어휘 ‘cute’를 활용하는 방법에 따라 결과물이 변화되며, 생성 명령의 실행 시마다 ‘귀여운 시츄’의 이미지 역시 계속 달라진다.

또한 부가적 명령어를 통해 산출물의 특징을 변화시킬 수도 있는데, 생성되는 이미지의 화면 비율을 16:9로 지정하는 명령어 「--ar 16:9」를 조합해 입력하면 Fig. 2와 같이 화면의 비례가 16:9로 변화된 결과를 얻을 수 있다. 그러므로 생성형 플랫폼을 디자인 프로세스 초기의 조형 단계에서 창의적 조형의 아이디어를 발전시키는 도구로 활용할 수 있다는 가설을 세울 수 있다.

Fig. 2

‘shihtzu, cute, --ar 16:9’ imaging by Mid Journey flat form, generated on 2024-07-25

이를 위해 3장에서는 명령어로서의 프롬프트에 적용이 가능한 어휘를 개념별로 분류하고, 그에 의한 인공지능 플랫폼에서 차량의 차체 조형 적용 사례를 고찰한다.


3. 인공지능과 명령어

3.1 인공지능 도구의 명령어 구성

미드저니의 기능과 활용법, 입력 방법 등의 내용을 설명한 「닥스 미드저니(https://docs.midjourney.com/)」 웹 사이트를 살펴보면 프롬프트 창에 입력하는 단어의 내용 설명6)을 볼 수 있는데, 베이직 프롬프트(Basic prompts)와 어드밴스드 프롬프트(Advanced prompts)로 구분해 설명하고 있다.

Fig. 3

Prompt explanation on Mid Journey web site

이 웹 사이트에 게시된 설명에서 프롬프트는 「미드저니 봇(Midjourney Bot)」이 해석하여 이미지를 생성하는 짧은 텍스트 문구라고 돼 있다. 미드저니 봇은 프롬프트의 단어와 문구를 토큰이라는 작은 조각으로 나누어 실행하며, 토큰은 훈련 데이터와 비교된 후 이미지를 생성하는 데 사용된다는 설명을 볼 수 있다. 여기에서 제시하는 프롬프트의 형식은 Fig. 4와 같은 단순 형식의 베이직 프롬프트(Basic prompt)는 텍스트 프롬프트(Text prompt) 하나로만 이루어져 있다.

Fig. 4

Basic Prompt format on Mid Journey web site

반면에 어드밴스 프롬프트(Advanced prompt)는 Fig. 5와 같이 이미지 프롬프트(Image prompt), 텍스트 프롬프트(Text prompt), 매개변수(Parameters) 등의 세 부분으로 구성돼 있음을 볼 수 있다.

Fig. 5

Advanced prompt on Mid Journey web site

이들 중 어드밴스 프롬프트의 맨 마지막의 매개변수는 주요 유형을 Table 2의 주요한 사례의 내용과 같이 정리할 수 있다.

Examples of parameters used in Mid Journey

이들 중 예를 들어 「--ar 3:1」은 생성된 이미지의 가로세로 비율을 3:1로 지정하는 것으로, 이 수치의 변화를 통해 화면 비율을 16:9 등으로 다양하게 바꿀 수 있다. 그리고 이를 활용해 2장 2절의 Fig. 2와 같이 가로로 긴 비례의 이미지를 생성할 수 있다. 한편, 「--nijii」는 생성되는 이미지를 일본의 애니메이션과 같은 인상의 이미지로 만들어주는 것이며, 「--s100」은 미드저니 자체의 예술성을 더해주는 명령어로, 0에서 100까지 변화시킬 수 있으며, 기본값은 100이다. 또한, 「--v」는 미드저니 플랫폼의 버전을 지정해 주는 명령어이며, 미드저니의 각 버전은 고유의 특성이 있다고 알려져 있다. 그리고 「--w 300」 등의 명령어는 특이함을 더해주는 명령어로, 3,000까지 설정 가능하며 기본값은 0이다. 「--c」는 초기에 생성되는 4개의 이미지의 다양성을 의미하며, 기본값은 0이나, 100이 최대치이다.

3.2 프롬프트의 구성

명령어로서 프롬프트는 개별 단어의 조합으로 구성되며, 대체로 2 ~ 3개 정도의 단어로 구성되는 것이 보통이다.9) 실행 사례를 보면 단어의 수가 적을수록 결과물의 변화 폭은 크며, 그에 따라 상대적으로 의외의 좋은 결과를 얻을 개연성이 높아진다. 이 내용은 「닥스 미드저니」에 설명되어 있는데, 단어의 선택, 단수와 복수, 내용 구성, 길이 등으로 요약한 것이 Table 3이다.

Explanations of prompting notes

주요 내용을 보면, 프롬프트에서 단어 선택이 중요한 요인이며, 다양한 상황에서 더 구체적인 동의어(同義語)가 더 잘 작동한다는 설명을 볼 수 있다. 또한, 큰 개념보다는 작은 것에서 점차로 크게 확대해나가는 형식이 유효하다. 복수형 단어는 우연성을 높이는 요인이므로 특정한 숫자를 사용하는 것이 더 구체적 결과로 나타난다고 설명하고 있다. 즉 “고양이 세 마리”는 “고양이”보다 더 구체적이다. 집합명사는 “새(Birds)” 대신 “새 떼(Flock of birds)”를 사용하는 것을 권장하고 있다. 그리고 표현되기를 원하는 것을 설명할 것을 권장한다. 그리고 만약 어떤 객체가 최종 이미지에 포함되지 않기를 확인하려면 「--no」 매개변수를 사용하도록 권장하고 있다.

한편 프롬프트의 길이나 세부 정보에 관한 설명에서는 간단한 것을 권장한다. 실질적으로 짧은 프롬프트는 미드저니의 기본 스타일을 사용하므로, 지정되지 않은 세부 사항을 창의적으로 생성할 수 있기 때문이다. 결국 프롬프트에 거시적 요소를 포함하는 것이 중요하며, 세부 사항이 적을수록 다양성은 높아지지만, 의도한 바를 정확히 얻기 위한 통제력은 떨어진다9)고 설명하고 있다.


4. 차체 조형 명령어

4.1 차량 구분 용어의 정의

인공지능 플랫폼을 활용한 조형에서 예를 들어 보편적인 승용차를 기준으로 고찰한다면, 차량 유형 구분 개념의 용어 고찰이 선행되어야 한다. 일반적인 승용차의 구분 기준은 다양하나, 대체적으로 세그먼트(Segment)라는 개념이 사용되고 있다. 그러나 이 기준은 가령 미국과 유럽의 구분에서 약간의 차이를 보이고 있다. 그리고 이것이 명확히 구분되는 기계적 구조로서의 개념이기보다는 시장에서 받아들여지는 소비자의 인식이나 사용 유형을 기반으로 하는 개념이다.

본 연구에서 생성 이미지의 사례로 살펴보는 승용차 차량의 유형은 마이크로 컴팩트 카(Micro compact car), 컴팩트 카(Compact car), 서브 컴팩트 카(Sub-compact car), 미드 사이즈 카(Mid size car), 라지 카(Large car) 등이다. 이들 중 미국 시장의 기준은 상대적으로 유연하며 가변성이 있으나, 유럽의 기준은 차체 제원과 같은 물리적인 범주(Category)로 나누어진 성격이 강하다.

Vehicle segmentation by markets

4.2 세그먼트에 의한 프롬프트

세그먼트 구분에서 사례로 살펴보는 「마이크로 컴팩트 카(Micro-compact car)」와 「A-세그먼트 미니 카(A-segment mini car)」라는 용어를 이용해 프롬프트를 입력하면 Figs. 6, 7과 같이 약간 다른 결과를 볼 수 있다. 이는 「마이크로-컴팩트 카」라는 용어가 더 서술형 용어이면서 이 유형으로 다양한 차종이 여러 시기와 지역 등에서 존재해왔으므로, Fig. 6과 같이 이미지 생성에서 상대적으로 가변성이 높지만, 「A-세그먼트」는 비교적 명확한 분류가 돼 있는 개념에 의한 생성 결과이므로 변수가 적고 그에 따른 이미지 역시 Fig. 7과 같이 차종의 특성에 수렴하는 응집성 있는 결과를 보여준다.

Fig. 6

Generated images of typical micro-compact car side view--ar 16:9 by Midjourney flat form, 2024-07-24

Fig. 7

Typical A-segment car side view, --ar 16:9 by Midjourney flat form, 2024-07-24

한편 「컴팩트 카(Compact car)」와 「B-세그먼트 카(B-segment car)」라는 용어를 이용한 프롬프트의 결과 역시 Figs. 8, 9와 같이 서로 다른 결과를 볼 수 있다. 그러나 두 사례에서 공통으로 1939년에 처음 등장한 폭스바겐 「Type-1」 이 제시되었다는 점은 물리적으로 컴팩트 카의 특징을 공통의 개념으로 충족시킨 결과로 볼 수 있다.

Fig. 8

Generated images of typical compact car side view, --ar 16:9 by Midjourney flat form, 2024-07-24

Fig. 9

Typical B-segment car side view, --ar 16:9 by Midjourney flat form, 2024-07-25

여기에서 Fig. 9에서는 「B-세그먼트 카」에 의한 생성 이미지가 「컴팩트 카(Compact car)」보다는 유선형이면서 차체가 하나의 조형체 개념으로 만들어진 모노-볼륨(Mono-volume) 형태의 최근의 차량의 유형이 생성되었다는 점에서 「B-세그먼트」는 상대적으로 더 구체적이면서 최근의 차량 유형을 지칭하는 개념을 나타낸다고 볼 수 있다.

「중형차(Mid-size car)」와 「D-세그먼트 카(D-segment car)」라는 용어를 이용한 프롬프트의 결과 역시 Figs. 10, 11과 같이 지향하는 특성이 다른 결과를 볼 수 있다.

Fig. 10

Generated images of typical mid size car side view, --ar 16:9 by Midjourney flat form, 2024-07-26

Fig. 11

Typical D-segment car side view, --ar 16:9 by Midjourney flat form, 2024-07-26

「중형차(Mid-size car)」라는 용어로 생성된 이미지는 모두 후드와 캐빈, 트렁크가 구분된 전형적인 3박스(Box) 구조의 4도어 세단(Sedan)과 2도어 쿠페(Coupé)를 보여주고 있다. 또한 공통으로 1970년대를 전후한 시기의 차량이라는 점이 주목된다. 반면에 「D-세그먼트 카(D-segment car)」는 전형적인 3박스 차체와 아울러 패스트백(Fast back) 차체의 차량 이미지가 동시에 생성된 것을 볼 수 있다. 특히 1970년대에 등장해 전위적 조형이라고 평가된 「시트로앵(Citroén) DS」 차량과 유사한 이미지를 필두로 생성된 3대의 차량 이미지가 모두 패스트백 차체라는 점에서 근래의 「D-세그먼트」 승용차 차체의 유형 경향이 반영된 것이라고 추론할 수 있다.

본 절에서 살펴본 스크립트에 의한 차량 유형의 생성에서는 차량의 세그먼트 구분에 의한 이미지 생성이 주요 관점이다. 따라서 여기에서는 「마이크로 컴팩트 카(Micro-compact car)」와 같이 상대적으로 포괄적 개념의 서술 용어보다는 「A-세그먼트 미니 카(A-segment mini car)」와 같이 객관적 구체성을 가진 텍스트가 더 유효하다는 것을 발견할 수 있다. 또한 이 용어는 베이직 프롬프트 형식에 부합하는 텍스트 프롬프트에 더 가까운 유형이라는 점도 볼 수 있다.

4.3 차체 특성 요인

4장 2절에서는 차량 유형을 구분하는 개념으로서 세그먼트를 프롬프트에 적용해 생성된 이미지의 사례를 고찰하였다. 그러나 사실상 세그먼트는 차량 유형을 구분하는 구체적 개념이지만, 그 자체로는 매우 포괄적 개념이므로, 세부 사항이 적을수록 다양성이 높아지는 동시에 의도한 바를 정확히 얻기 위한 통제력은 떨어진다9)는 생성형 이미지의 해설과 부합하는 결과를 볼 수 있었다.

이러한 차량 유형에서 더 구체적이고 미시적 개념의 차체 조형을 구분하는 용어는 차체 비례, 표면 광택, 색상, 투명도, 기능성, 고속성능, 오프로드 성능, 공기역학적 차체, 유기체적 조형, 표면 광택, 색상, 기능 등으로 세분화할 수 있다. 이들의 개념은 차량 디자인 단계별로 조형의 범주가 점차 미시적 구분 단계로 구분돼 나가는 것이다.

Fig. 12에서 제시된 차체 구조를 구분하는 요인은 또 다른 선행 연구에서 연구된 내용7)으로, 조형 특성 고찰을 위한 본 연구에서도 서술어를 위한 개념으로 활용할 수 있다는 점에서 활용하였다.

Fig. 12

Coupe body characteristics factor

승용차의 차체는 일반적으로 실내 공간 구조, 후드 및 데크 비례, 차체 후방 형태 등으로 구분할 수 있다. 이들 요소 중 A에서 E까지는 차체의 구조적 요인이며, F에서 J까지는 차체의 구조를 이루는 가변적 요소들이다.

이 요소를 쿠페형 차체 구조의 주요 특징으로 살펴보면 3박스 구조에, 2개의 출입문, 그리고 차체에 활용성을 위한 구조로써 트렁크 리드를 포함한 차체 후부의 노치백 형태 조형 등이며, 이들은 Table 5의 정형적(正形的, Typical) 차체 요소와 Table 6의 가변적(可變的, Variable) 차체 요소 등으로 정리할 수 있다.

Typical coupe body factors

Variable coupe body factors

일반화된 서지적 자료가 아닌 자동차 기업의 개발지침8)에 의하면, 승용차 차체 비례에서 전체 길이 대비 후드의 길이 비율 A가 25 %인 것을 중립적 비례로 보는 것이 보편적이며, 데크의 비례 D는 후드 길이의 1/2을 중립적 비례로 본다. 이를 바탕으로 한 쿠페형 차량의 구조는 Table 5에서 음영으로 표기된 영역의 특징을 가지고 있다.

이러한 차체 비례와 구조, 차체 유형 이외에도 표면의 광택, 차체 색상, 투명도, 기능 및 성능, 공기역학적 차체 특성, 유기체적 조형, 기하학적 조형 등 형태와 감성에 더 직접 관련된 요소 역시 차량 특성인자로 프롬프트에 적용할 수 있다. 그것을 보여주는 Table 6과 같이 쿠페의 구조를 구성하는 또 다른 가변적 요인으로는 승객 수, 앞 방풍 유리 각도, 뒷유리 각도, 출입문 수, 그리고 캐빈의 부피 비중 등을 볼 수 있다. F에서 J까지로 구분되는 이들 요소는 또 다른 관점으로 본다면, Table 5의 내용이 정성적(定性的) 유형의 특징이라면, Table 6은 대체로 차체 사용성과 관련된 정량적(定量的) 유형으로 구분할 수 있다.

Table 6에서 캐빈 부피(Cabin mass)를 나타내는 J는 후드와 데크의 중립 비례가 각각 25 %와 12.5 %와 결부되어 그의 나머지 62.5 %를 중립적 수치로 보며, 그보다 커지면 거주 공간 중심의 실용적 차량의 성격이며, 작아지면 스타일을 강조한 성격을 가지게 된다.9)

4.4 차량 특성인자에 의한 프롬프트

본 절에서는 2절과 3절에서 고찰한 차량의 유형을 구분하는 용어와 특성을 나타낸 개념을 4장 3절에서 고찰한 용어를 적용한 프롬프트로써 생성된 이미지의 사례를 고찰한다. 먼저 차체 대비 29 % 길이 비례의 후드와 낮은 차체와 앞 유리, 짧은 앞 오버행의 은빛 차체라는 전형적 특성으로 이미지를 생성하였다.

여기 사용된 프롬프트는 「29 % of hood length coupe side view, sleek front windshield glass, low profile, short front overhang, silver body color, --ar 3:1」 이었다. 이러한 형식에서는 초반의 네 가지 용어가 이미지 프롬프트로 작용한 것으로 보이며, 색상과 매개변수로 각각 「silver body color」, 「--ar 3:1」이 사용되었다. 생성된 이미지는 Fig. 13이다.

Fig. 13

Generated images of coupe by Midjourney flat form, 2024-07-26

생성된 이미지는 모두 3:1 비례의 가로로 긴 화면 비례로 인해 정측면 이미지가 제시됐으며, 우측 세로 방향의 2개의 이미지는 1954년형 「300SL」 차량이 제시되었으며, 좌측의 세로 방향 2개의 이미지는 특정 차량이 아닌 데이터 결합으로 생성된 차량 이미지의 결과물로 보인다.

또한, 같은 명령어에서 매개변수로 「--ar 16:9」를 적용해 생성한 이미지가 Fig. 14이다. 사용된 프롬프트는 「29 % of hood length coupe side view, sleek front windshield glass, low profile, short front overhang, silver body color, --ar 16:9」이다. 여기에서는 화면 비례가 높아지면서 완전한 측면 뷰(Normal side view)의 대신 정면과 측면이 동시에 관찰되는 전측면 뷰(Front quarter view)가 생성된 것을 볼 수 있다.

Fig. 14

Generated images of coupe by Midjourney flat form, 2024-07-26

전측면 뷰 대신 완전한 측면 뷰를 생성하기 위해 같은 프롬프트를 한 번 더 실행시켜 얻은 것이 Fig. 15이다. 여기에서는 전반적인 차량의 이미지는 유사하면서 우측의 세로 방향 2개의 이미지는 특정한 차량 모델은 아닌 클래식 차량의 이미지가 제시되었으며, 좌측의 세로 방향 2개의 이미지는 근래의 차량의 인상이 드는 정측면 이미지가 제시되었다.

Fig. 15

Generated images of coupe by Midjourney flat form, 2024-07-26

4.4 코퍼스의 고찰과 차량 이미지

말뭉치 또는 코퍼스(영어: corpus, 복수형: corpora)는 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합이다. 컴퓨터의 연산 속도의 향상으로 말뭉치 분석이 용이해졌으며 분석의 정확성을 위해 해당 자연언어를 형태소 분석하는 경우가 많다. 또한 확률이나 통계적 기법, 시계열적 접근으로 전체를 파악한다.

코퍼스는 언어의 빈도와 분포를 확인할 수 있는 자료이며, 현대 언어학 연구에 필수적인 자료이다. 인문학에 자연과학적 방법론이 가장 성공적으로 적용된 경우라는 견해10)를 볼 수 있다. 이러한 말뭉치는 말뭉치 언어학에서의 주요한 지식 기반이며, 또한 다양한 형태의 말뭉치를 분석하고 처리하는 것은 품사 표기 및 다른 목적을 위하여 「은닉 마르코프 모델(Hidden Markov Model, HMM)」을 만들어 사용하는 전산언어학, 음성 인식, 기계 번역 분야의 연구 대상이기도 하다.11)

여기에서 파생된 말뭉치와 빈도 목록은 언어 교육에도 유용하게 사용된다. 말뭉치는 비(非)원어민 언어 사용자가 말뭉치 속의 실제 텍스트에 노출되어 습득한 문맥화된 문법 지식이 학습자가 목적 언어에서의 문장 형성 방법을 이해할 수 있고 효과적인 작문을 도와주므로, 외국어 작문의 도우미로 여겨진다.

이러한 특성의 코퍼스는 세부를 묘사하며 생성형 이미지의 통제성을 높이는 요소로 활용될 수 있다. 그리고 이 개념을 인공지능 플랫폼에서 활용하는 방법은 말뭉치의 영역을 정하고, 그것을 콜론(:)으로 연결하는 형식이 사용된다.

Fig. 16을 생성하는 데에 사용된 프롬프트는 「The appearance of a car: 29 % of length of hood. Fast back body 2 door coupe. Material: transparent glass. Shape of body: aerodynamic body. Function: high speed driving. Glossy: the shape surface has a glossy feel. Surface color: Italian red. --ar 3:1」이다. 사용된 말뭉치를 정리한 것이 Table 7이다.

Fig. 16

Generated images of coupe by Midjourney flat form, 2024-07-26

Prompt analysis of Fig. 16

이 사례에서는 생성되는 화면 비율을 3:1로 지정했음에도 차량의 이미지에서 완전한 측면 뷰(Normal side view)와 후측면 뷰(Rear quarter view)와 전측면 뷰(Front quarter view)가 혼재하는 결과를 보여준다. 그리고 광택이 있는 차체 이미지를 보여준다. 색상은 이탈리안 레드(Italian red)의 채도 높은 본래 색상과는 달리 명도와 채도가 낮은 생성 이미지를 보여준다.

그리고 Fig. 17의 이미지 생성을 위해서 사용된 프롬프트는 「The appearance of a car: 29 % of length of hood. Fast back body 2 door coupe. Shape of body: aerodynamic body. Material: transparent glass. Function: high speed driving. Glossy: the shape surface has a glossy feel. Surface color: matt aluminum. photo studio environment. --ar 3:1」이다.

Fig. 17

Generated images of coupe by Midjourney flat form, 2024-07-26

사용된 말뭉치를 정리한 것이 Table 8이며, 여기에서는 화면 비율을 3:1로 지정했음에도 정측면 뷰와 조감도 뷰가 혼재하는 결과를 보여준다. 그리고 광택이 있는 차체 이미지와 반 광택의 알루미늄 재질을 지정했으나, 색상의 밝기는 어두운 금속재질도 함께 생성된 결과를 보여준다. 또한 사진 스튜디오 환경을 지정함에 따라 단순 공간의 배경과 유리창의 반사에서 인공적 반사 효과도 보여준다.

Prompt analysis of Fig. 17

한편, 화면 비율과 정측면 뷰를 지정해 생성한 Fig. 18에 사용된 프롬프트는 「29 % of hood length coupe side view, sleek front windshield glass, low profile, short front overhang, geometric shape, matt silver body color, white background studio environment, --ar 16:9」이다.

Fig. 18

Generated images of coupe by Midjourney flat form, 2024-07-26

Prompt analysis of Fig. 18

여기에서는 화면 비율을 16:9로 지정했음에도 정측면 뷰 지정에 의한 측면 뷰 생성의 결과를 보여준다. 그리고 낮은 앞 유리 각도 지정과 짧은 앞 오버행에 충실한 차체 프로파일을 볼 수 있다. 또한 기하학적 형태 지정으로 유기체적 곡면 대신 기하학적 곡면과 선이 생성된 결과를 보여준다. 그리고 백색 배경의 사진 스튜디오 환경을 지정함에 따라 단순한 공간의 배경에 의한 거의 흑백 톤의 이미지를 보여준다. 그런데 이러한 프롬프트를 재차 실행시켜 생성된 Fig. 19Fig. 20은 완전히 같은 프롬프트를 사용했음에도 차체의 세부 형태와 차체 양감의 흐름, 전체의 색감 등에서는 매우 구분되는 이미지를 보여주고 있음을 볼 수 있다.

Fig. 19

2nd regenerated images of coupe by Midjourney flat form, 2024-07-26

Fig. 20

3rd regenerated images of coupe by Midjourney flat form, 2024-07-26

또한, 측면 뷰 지정을 제외하고 나머지는 같은 프롬프트 「29 % of hood length coupe, sleek front windshield glass, low profile, short front overhang, geometric shape, matt silver body color, white background studio environment, --ar 16:9」를 실행시켜 생성된 Fig. 21은 다양하게 변화된 세부 형태를 가진 쿠페형 차량의 이미지를 보여주고 있음을 볼 수 있다.

Fig. 21

Gegenerated images of coupe by Midjourney flat form, 2024-07-27

Fig. 21에서 제시된 생성 이미지는 정측면 뷰의 조건을 제시하지 않은 상태에서 더욱 다양한 데이터를 학습한 결과라고 할 수 있다. 특히 우측 두 장의 이미지는 특정 브랜드를 가진 모습도 보여주고 있다. 이는 기본적으로 인공지능 플랫폼이 기존의 이미지 데이터를 조합한 결과라는 것의 방증이다. 그러나 데이터의 연산 속도나 수량에서 효율성을 가지고 있다는 점은 장점이라고 할 수 있다.

4.5 인공지능 기반 조형의 시사점

인공지능 플랫폼을 활용한 조형에서는 명령어의 입력에 의한 결과의 차이가 매우 크다는 사실을 바탕으로 명령어의 적절한 선택과 입력이 결과물의 생성을 좌우함을 알 수 있다. 대체적인 인공지능 플랫폼은 정량적(定量的; Quantitative) 개념보다는 정성적(定性的; Qualitative) 개념에서의 활용에 더 장점이 있으므로 디자이너가 조형 작업에서 인공지능 플랫폼 활용의 장점으로 작용할 것으로 보인다.

인공지능 플랫폼을 이용한 이미지 생성에서는 이미지 프롬프트(Image prompt), 텍스트 프롬프트(Text prompt), 매개변수(Parameters) 등의 세 부분으로 구성된 명령어를 각 특성에 맞는 서술어를 구분한 입력이 요구되며, 이들 내용은 다른 관점으로는 정성적 용어와 정량적 용어, 혹은 서술형 용어(敍述形 用語; Descriptive words) 언어, 지정형 용어(指定形 用語; Designative words) 등으로 구분할 수 있을 것으로 보인다. 그 내용을 정리한 것이 Table 10이다.

Formats and category of prompts

생성형 이미지를 위한 명령어라는 관점에서 이미지 프롬프트는 서술형 용어가 중심이 되고, 텍스트 프롬프트와 매개변수는 지정형 용어가 중심이 되어 사용하는 것이 유효할 것으로 보인다. 그러나 이는 본 연구에서 고찰한 사례를 통한 잠정적 시사점이며, 이전의 선행 연구에서 미결된 영역의 부분적인 구체화에 불과하다. 이에 본 연구는 인공지능 플랫폼을 활용한 조형 작업의 구체화의 방법의 하나에 불과함은 여전한 한계점이라고 할 것이다.


5. 결 론

지금까지의 고찰을 통해 본다면, 인공지능 플랫폼을 이용한 이미지 생성에서는 이미지 프롬프트, 텍스트 프롬프트, 매개변수 등의 세 부분으로 구성된 명령어를 각 특성에 맞는 서술어를 구분해서 입력하는 것이 요구되며, 이들 내용은 정성적 용어와 정량적 용어, 혹은 서술형 용어와 지정형 용어 등의 특성으로 구분할 수 있음을 살펴보았다.

오늘날 많은 관심을 끌고 있는 인공지능 플랫폼은 대량의 데이터를 학습해 답을 제시하는 머신러닝 개념의 또 다른 모습이며, 근래에 컴퓨터 성능의 급격한 향상으로 실체가 나타나기 시작한 것이다. 이것의 장점은 사람이 하는 데에 오랜 시간이 걸리던 비교와 분석을 짧은 시간 이내에 손쉽게 수행한다는 것이다.

그러나 한편으로 그러한 분석을 넘어서는 창의적 활동으로서의 디자인 개발은 여전히 사람의 역할이라는 것에는 변함이 없을 것이다. 다만 인공지능 플랫폼을 활용해 생성된 이미지가 제공하는 결과의 신속성과 다양성은 사람의 창의적 사고 활동이 논리와 이성적 판단이 제약으로 작용한다는 점에서, 사고의 제약이 없는 인공지능 플랫폼을 활용한 조형의 생성이 사람의 창의적 활동의 한계를 넓혀주는 촉매제가 될 것이라는 점에서 충분한 조력자가 될 것이라고 할 수 있을 것이다.

한편으로 본 논문의 연구는 쿠페형 차량이라는 제한적 주제를 통한 고찰이므로, 실질적인 차량의 차체 조형 개발에 인공지능 플랫폼의 특성을 이용한 작업을 위해서는 활용하려는 분야나 주제의 특성을 반영한 용어를 코퍼스로 구체화 시켜서 진행해야 할 것이다.

Acknowledgments

이 논문은 2023년도 정부(교육부, 산업부)의 재원으로 한국디자인진흥원의 지원을 받아 수행된 연구임(신기술융합디자인 혁신인재양성사업)

References

  • S. Koo, “An Observation on Composition Elements of Vehicle Body Design Descriptive Words for AI Platform Based Design,” Transactions of KSAE, Vol.32, No.1, pp.37-48, 2024. [https://doi.org/10.7467/KSAE.2024.32.1.37]
  • IBM, “What is AI?” https://www.ibm.com/topics/artificial-intelligence, , 2024-07-22.
  • Doosan Encyclopedia, 2023.
  • T. G. Dietterich, “Ensemble Methods in Machine Learning,” Multiple Classifier Systems: First International Workshop, MCS 2000 Cagliari, Proceedings 1, Italy, Springer Berlin Heidelberg, pp.1-15, 2000. [https://doi.org/10.1007/3-540-45014-9_1]
  • D. H. Kim, Artificial Intelligence Governance, Communication Books, Seoul, 2018.
  • Midjourney, “Prompts,” https://docs.midjourney.com/docs/prompts, , 2024-07-25.
  • S. Koo, “Changing Aspect of Coupé Type Body Designs,” Transactions of KSAE, Vol.32, No.1, pp.37-48, 2024. [https://doi.org/10.7467/KSAE.2024.32.9.737]
  • Interview with Automobile Engineers, 2024-02-28.
  • Interview with Automobile Engineer, 2024-02-17.
  • Building Synchronous Parallel Corpora of the Languages Taught at the Faculty of Arts of Charles University.
  • H. Yoon and A. Hirvela, “ESL Student Attitudes toward Corpus Use in L2 Writing,” Journal of Second Language Writing, Vol.13, No.4, pp.257-283, 2004. [https://doi.org/10.1016/j.jslw.2004.06.002]

Fig. 1

Fig. 1
‘shihtzu, cute’ imaging by Mid Journey flat form, generated on 2024-07-25

Fig. 2

Fig. 2
‘shihtzu, cute, --ar 16:9’ imaging by Mid Journey flat form, generated on 2024-07-25

Fig. 3

Fig. 3
Prompt explanation on Mid Journey web site

Fig. 4

Fig. 4
Basic Prompt format on Mid Journey web site

Fig. 5

Fig. 5
Advanced prompt on Mid Journey web site

Fig. 6

Fig. 6
Generated images of typical micro-compact car side view--ar 16:9 by Midjourney flat form, 2024-07-24

Fig. 7

Fig. 7
Typical A-segment car side view, --ar 16:9 by Midjourney flat form, 2024-07-24

Fig. 8

Fig. 8
Generated images of typical compact car side view, --ar 16:9 by Midjourney flat form, 2024-07-24

Fig. 9

Fig. 9
Typical B-segment car side view, --ar 16:9 by Midjourney flat form, 2024-07-25

Fig. 10

Fig. 10
Generated images of typical mid size car side view, --ar 16:9 by Midjourney flat form, 2024-07-26

Fig. 11

Fig. 11
Typical D-segment car side view, --ar 16:9 by Midjourney flat form, 2024-07-26

Fig. 12

Fig. 12
Coupe body characteristics factor

Fig. 13

Fig. 13
Generated images of coupe by Midjourney flat form, 2024-07-26

Fig. 14

Fig. 14
Generated images of coupe by Midjourney flat form, 2024-07-26

Fig. 15

Fig. 15
Generated images of coupe by Midjourney flat form, 2024-07-26

Fig. 16

Fig. 16
Generated images of coupe by Midjourney flat form, 2024-07-26

Fig. 17

Fig. 17
Generated images of coupe by Midjourney flat form, 2024-07-26

Fig. 18

Fig. 18
Generated images of coupe by Midjourney flat form, 2024-07-26

Fig. 19

Fig. 19
2nd regenerated images of coupe by Midjourney flat form, 2024-07-26

Fig. 20

Fig. 20
3rd regenerated images of coupe by Midjourney flat form, 2024-07-26

Fig. 21

Fig. 21
Gegenerated images of coupe by Midjourney flat form, 2024-07-27

Table 1

Examples of deep learning usages

Applying fields
Voice recognition Technology to allow computers to recognize and interpret human voice.
ex) Alexa of AMAZON, Siri of APPLE, Google Assistance, etc.
Image recognition Technology of automatically categorizing and tagging objects, faces, expressions, scenes, etc. in photos or videos.
ex) Deepface of FACEBOOK, Gogle photo, Tesla autonomouse cars, etc.
Natural language processing Technology of enabling computers to understand and process human language.
ex) Google translate, Naver Papago, IBM Watson, etc.
Generative modeling Technology of creating or transforming new data.
ex) Google Deep dream, NVIDIA Style Guience, Open AI GPT-3, etc.

Table 2

Examples of parameters used in Mid Journey

Parameters Examples Contents Explanations
--ar --ar 3:1 Screen ratio Adjustment
--nijii --niji Animation Creating Japanese animation-style images
--no --no tree Request for exception Request to exclude certain objects and colors
--s --s 100 Artistic effects Midjourney’s own artistry vs. command consistency
→ more artistic effects according to the figures
→ default:100 (0 ~ 1,000)
--v --v 5.2 Version Select Midjourney version
→ recent the version results higher image quality
→ each version has a specific style
--w --w 300 Uniqueness Give to images a quirky and unique character
→ more quirky and unique character according to the figures
→ default:0 (0 ~ 3,000)
--c --c 50 Variety Diversity of the first four created images
→ more diversity of the first four created images according to the figures
→ default: 0 (0 ~ 100)

Table 3

Explanations of prompting notes

Contents explanations
Word choice Word choice matters. More specific synonyms work better in many circumstances. Instead of big, try tiny, huge, gigantic, enormous, or immense.
Plural words and collective nouns Plural words leave a lot to chance. Try specific numbers. “Three cats” is more specific than “cats.” Collective nouns also work, “flock of birds” instead of “birds.”
Focus on what you want It is better to describe what you want instead of what you don’t want. If you ask for a party with “no cake,” your image will probably include a cake. To ensure an object is not in the final image, try advanced prompting using the --no parameter.
Prompt length and details Prompts can be simple. A single word or emoji will work. However, short prompts rely on Midjourney’s default style, allowing it to fill in any unspecified details creatively. Include any element that is important to you in your prompt. Fewer details mean more variety but less control.

Table 4

Vehicle segmentation by markets

American markets European markets Representative models
N/A A-Segment mini cars City car for 1 ~ 2 passengers
Micro- compact car Smart Fortwo, Fiat 500, Kia Morning
Compact car B-Segment small cars Ford Fiesta, Kia Pride Hyundai i20
Sub-compact car C-Segment Medium cars Hyundai Elantra, Avante, Honda Civic, Peugeot 308
Mid-size car D-Segment large cars Chevrolet Malibu, Kia K5, Chrysler 200, Ford Fusion Hyundai Sonata, VW Passat
Large car E-Segment executive cars Chevrolet Impala, Ford Taurus Hyundai HG, Toyota Avalon Cadillac CTS, Chrysler 300
N/A F-Segment luxury cars Benz S-Class, BMW 7, Lexus LS
N/A S-Segment sports cars Aston martin DB9, Jaguar XK Bentley Continental GT Lamborghini Aventador BMW Z4, Porsche Boxter
Minivan M-Segment multi-purpose cars Citroen C3, KiaCarens
Cargo van Chevrolet Orlando
Passenger van Dodge Caravan, Kia Carnival Toyota Sienna
Small SUV J-Segment SUVs Jeep Wrangler
Standard SUV Audi Q5, Hyundai SantaFe Jeep Cherokee, VW Touareg Ford Exploer, Kia Sorento
Etc. Pickups Dodge Ram, Ford F150 Toyota Tundra

Table 5

Typical coupe body factors

A Hood proportion Over 25 % Performance oriented
25 % Neutral
24 ~ 22 % Practical
Lesser 22 % Space oriented
B Body structure 3 box Orthodox type
2 box Utility car type
1 box Van type
Flat Truck type
C Utility Big trunk lid Stylish type
Trunk lid Neutral
Tail gate Utility car
Lift back Practical car
D Deck proportion Over 1/2 Stylish type
1/2 of hood Neutral
Short deck Practical
Kick-up Aero design
E Rear body type Notch back Orthodox type
Fast back Stylish type
Slanted back Practical
Kamm back Utility car

Table 6

Variable coupe body factors

F Number of passengers 2 Private type
2+2 Personal type
5 Practical type
6 ~ People mover
G Front windshield glass angle Low slanted Style oriented
Slanted Neutral
Less slanted Practical
Up righted Space oriented
H Back light glass angle Low slanted Style oriented
Slanted Neutral
Less slanted Practical
Up righted Space oriented
I Number of doors 2 doors Orthodox type
3 doors Stylish type
4 doors Practical car
5 doors ~ Utility car
J Cabin mass Lesser 62.5% Style oriented
62.5% Neutral
63 ~ 64% Practical
over 64% Space oriented

Table 7

Prompt analysis of Fig. 16

Image prompt The appearance of a car: 29% of length of hood
Fast back body 2 door coupe
Shape of body: aerodynamic body
Text prompt Material: transparent glass
Function: high speed driving
Glossy: the shape surface has a glossy feel
Surface color: Italian red
Parameters --ar 3:1

Table 8

Prompt analysis of Fig. 17

Image prompt The appearance of a car: 29% of length of hood
Fast back body 2 door coupe
Shape of body: aerodynamic body
Text prompt Material: transparent glass
Function: high speed driving
Glossy: the shape surface has a glossy feel
Surface color: matt aluminum
photo studio environment
Parameters --ar 3:1

Table 9

Prompt analysis of Fig. 18

Image prompt Appearance of a car: 29% of hood length coupe side view
Sleek front windshield glass
Low profile
Short front overhang
Geometric shape
Text prompt Matt silver body color
White background studio environment
Parameters --ar 16:9

Table 10

Formats and category of prompts

Prompts Format Category
Image prompt ppearance of object: xx Descriptive words, qualitative words
Text prompt Material: xx Designative words, quantitative words
Function: xx
Glossy: glossy, matt, flat, etc.
Surface color: xx
Background: environment
Parameters --ar X:X