자외선차단 수치를 더 정확히 예측하는 머신러닝 모델

LG생활건강 효능·인체시험연구Lab 심지용 선임연구원

[더케이뷰티사이언스] 4차 산업혁명의 영향으로 화장품 업계에서도 이종산업 기술과의 융합연구가 빠른 속도로 확산되고 있다. 특히 미래 산업을 이끌어갈 핵심기술의 하나로 각광받고 있는 인공지능(Artificial Intelligence, AI) 기술을 접목하는 시도들이 대중의 이목을 사로잡고 있다. 증강현실(Augmented Reality, AR) 기술을 적용한 메이크업 시뮬레이션을 통해 고객의 얼굴 톤에 어울리는 립스틱 색을 제안하는 컨설팅 서비스를 선보이는 현 상황에서, AI 프로그램으로 고객의 피부상태를 분석하고 맞춤형 처방 및 제품을 제공하는 모습은 그리 머지않은 미래일지도 모른다.

본지는 AI 분야의 핵심 기술인 머신러닝(Machine learning) 기술을 적용해 새로운 자외선 차단지수 예측모델을 개발한 LG생활건강 심지용 선임연구원과 인터뷰를 진행했다.

올해 입사 3년차인 심 선임연구원은 입사한 첫 해부터 머신러닝에 관심을 갖게 되어 꾸준한 연구개발을 통해 새로운 개념의 예측모델을 개발하였고, 최근 연구한 내용을 저널 ‘Experimental Dermatology’에 발표했다. 심 선임연구원이 개발한 예측모델은 SPF/PA로 표시되는 자외선 차단지수와 그동안 축적된 방대한 양의 임상시험결과들을 데이터베이스화 한 것으로, 기존의 자외선 차단 효능 예측법보다 정확도와 신뢰도가 모두 높다는 평가를 받고 있다. 쉽지 않았을 것 같은 그의 연구에 대해 궁금한 사항을 물었다.

연구의 주제는 무엇인가요?

본 연구의 주제는 임상시험 데이터를 바탕으로 보다 정확한 자외선 차단 지수 예측모델을 개발하는 것입니다. 자외선 차단제는 햇빛으로부터 피부를 보호하기 위한 제품으로, 고객이 본인에게 잘 맞는 제품을 선택하기 위해서는 SPF(Sun Protection Factor)와 PA(Protection grade of UVA)로 표시되는 자외선 차단지수를 꼭 확인해야 하지요. 참고로 SPF는 피부의 표피 및 진피 상부까지 침투하는 자외선 B를 차단하는 정도를 의미하는 지수로 피부 홍반 및 피부암 예방을 위해 꼭 챙겨야 하는 정보이며, PA는 피부에 깊숙이 침투하여 주름을 생성하거나 피부탄력 저하, 색소 침착 등의 피부노화 문제를 일으키는 자외선 A를 차단하는 정도를 의미하는 지수입니다. 따라서 자외선 차단제를 개발하는 화장품 연구소에서는 제품의 정확한 SPF, PA 수치를 도출하는 것이 매우 중요합니다.

예측모델을 개발하고자 시작한 연구 배경이 궁금합니다.

본 연구 아이디어를 처음 생각하게 된 시기는 LG생활건강에 입사하여 신입으로 근무하던 2017년이었습니다. 당시 인체시험 연구조직에서 자외선 차단제 임상시험을 담당했었는데, 제품개발팀에서 개발한 자외선 차단제 제품을 외부 임상시험기관에 시험의뢰를 하고 그 결과를 정리하는 등의 관리업무를 맡았습니다. LG생활건강 기술연구원에서는 2010년 이전부터 자외선 차단제에 대한 임상시험을 오랜 시간 수행해왔는데, 해가 갈수록 늘어나는 방대한 양의 시험 결과들이 보고서 형태로만 관리되고 있었습니다. 때문에 연구원들이 과거 자료를 참고하는데 번거로움이 많았지요. 2011년부터는 임상시험 보고서가 전산 상에 업로드 되기 시작했는데, 이를 보기 쉽게 데이터베이스화 하면 연구원들이 보다 효율적으로 자료를 활용 할 수 있을 것이라고 생각하게 되었습니다. 뿐만 아니라 임상시험에 드는 비용 측면에서도 데이터베이스를 활용한 예측모델을 통해 효율성을 높일 수 있을 것 같다는 생각을 하게 되어 본 연구를 시작하게 되었습니다.

비용 절감 효과도 있나요?

그렇습니다. 자외선 차단제품의 임상시험을 위해서는 여러 명의 피시험자를 대상으로 한 자외선 조사 시험을 해야 하므로 비용과 시간이 많이 들어가게 됩니다. 그동안 연구소에서는 이러한 비용문제를 최소화하기 위해 임상시험기기의 조건을 사전에 세팅하여 오류 발생 확률을 줄이는 간이시험을 수행해 왔습니다. 즉 본시험 전에 간이시험을 통해 예측 SPF, PA 수치에 맞추어 자외선 조사기의 세기를 미리 조절하는 것이지요. 그렇지만 새로 개발되는 제품 수가 워낙 많다보니 간이시험 비용도 부담이 큰 상황이었습니다. 이에 처음 제품개발 단계부터 자외선 차단수치를 정확히 예측할 수 있다면, 간이시험 단계를 대체함으로써 비용부담을 줄일 수 있을 것이라는 아이디어를 도출했습니다. 2년여 간의 연구 끝에 지금의 새로운 모델을 개발할 수 있었지요.

SPF나 PA 수치는 주로 어떻게 평가하나요?

일반적으로는 in vivo와 in vitro 평가법이 있습니다. in vivo 평가법은 사람을 대상으로 임상시험을 진행하는 것을 말합니다. 앞서 설명한바와 같이 여러 명의 피시험자가 인체적용 시험에 참여해야하기 때문에 시험 비용이 비쌀 뿐만 아니라 결과 도출까지 소요되는 시간도 긴 편이지요. 특히 자외선 차단제에 대한 시험의 경우 피시험자의 피부에 직접적으로 자외선을 조사하여 제품의 효과를 확인해야하기 때문에 피부 부작용이 발생할 수 있다는 단점이 있습니다.

in vitro 평가법은 사람의 피부 대신 PMMA(Poly Methyl Methacrylate) 등의 대체물질을 이용해 자외선 차단제의 흡광률을 기기로 측정하므로, in vivo 평가법보다 안전하고 시험비용도 저렴합니다. 그렇지만 실제 피부를 사용하지 않기 때문에 in vivo 평가를 진행했을 때와는 다른 결과가 나올 가능성이 있어 정확도가 떨어지는 단점이 있습니다. 이외에도 타사에서 개발한 SPF, PA 수치 시뮬레이션 프로그램들이 있는데, 이들은 자외선 차단제를 구성하는 주성분 각각의 자외선 흡광률을 별도로 측정하여 복잡한 수식으로 시뮬레이션 시스템을 만든 것이라고 보면 됩니다.

임상시험 데이터베이스는 어떻게 구축되었나요?

우선 본 예측모델 개발을 위해 활용한 머신러닝 기술의 경우, 데이터의 수가 많을수록 더 정확한 결과를 도출할 가능성이 높아집니다. 즉 최대한 많은 임상시험 데이터를 이용하는 것이 좋은 예측모델을 개발하기 위한 핵심 포인트이기 때문에 임상시험 데이터 확인이 가능한 2011년 이후에 출시한 수백 개 제품의 임상시험 데이터를 최대한 활용했습니다. 더불어 단순히 숫자만 늘린 것이 아니라 서로 동일한 방식의 임상시험을 진행한 제품들만을 선별하여 모델을 구축함으로써 정확도를 높이는 데에도 신경을 썼습니다. 여러 피시험자들을 대상으로 한 반복시험 결과를 활용하여 최종적으로 SPF 예측모델은 2377건, PA예측모델은 2284건의 임상 데이터를 활용할 수 있었습니다.

머신러닝에 대해 설명해주세요.

머신러닝이란 AI 연구 분야의 하나로 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술을 말합니다. 우리말로는 ‘기계학습’이라고 하는데, 쉽게 말해 컴퓨터가 스스로 방대한 데이터를 분석 및 학습하여 미래를 예측하는 기술이라고 볼 수 있습니다. 보통의 컴퓨터 프로그램과는 달리 특정 문제를 해결하기 위한 코드를 별도로 작성하지 않고, 일반 알고리즘만으로도 데이터의 흥미로운 부분을 찾아내고 해석할 수 있다는 점이 특징입니다.

그림 1. 실제 SPF 임상결과 값과 머신러닝으로 예측된 SPF값의 상관관계(a) 주성분 정보만으로 구축된 SPF 예측모델의 예측률 확인, (b) 주성분, 4개 factor 정보로 구축된 SPF 예측모델의 예측률 확인

그림 2. 실제 PA 임상결과 값과 머신러닝으로 예측된 PA값의 상관관계(a) 주성분 정보만으로 구축된 PA 예측모델의 예측률 확인, (b) 주성분, 4개 factor 정보로 구축된 PA 예측모델의 예측률 확인

머신러닝은 정보 및 데이터를 입력하고 결과를 얻는 방식에 따라 감독(Supervised)학습, 비감독(Unsupervised)학습, 강화(Reinforcement)학습의 3가지 종류로 구분이 됩니다. 감독학습은 입・출력 데이터를 모두 제공한 상태에서 둘 사이의 관계에 대한 함수를 추론・학습하는 방식이고, 비감독 학습은 출력 데이터 없이 입력 데이터만으로 패턴을 찾는 방식으로 데이터 클러스터링 등의 형태로 학습을 하게 됩니다. 강화학습은 주어진 환경에서 특정한 액션을 취할 때 마다 그에 해당하는 보상(Reward)을 받으며 학습을 하는 방식으로 게임 개발 시에 많이 쓰이고 있습니다. 제가 예측모델을 개발할 때 사용한 방식은 감독학습인데, 제품에 들어가는 주성분의 함량과 네 가지의 추가 인자(factor) 등이 입력 데이터이고 SPF와 PA 지수가 출력 데이터라고 보시면 됩니다.

화장품 업계에서는 머신러닝 기술을 적용한 케이스가 있나요?

컴퓨터가 고객의 얼굴을 인식해 가상 메이크업을 제안하는 VR 프로그램이 상용화되어있고, 피부과학 분야에서는 이미지 분석을 통해 피부암을 진단하는 모델이 만들어지고 있는 것으로 알고 있습니다.

개발된 예측모델의 차별점은 무엇인가요?

기존에 사용되고 있던 SPF, PA 시뮬레이션 프로그램은 각 주성분의 흡광률을 따로 계산하는 방식이기 때문에 여러 성분들로 구성된 복합적인 효과를 정확하게 계산하는 데 한계가 있었습니다. 제가 개발한 머신러닝 기반의 SPF, PA 예측모델은 실제 임상시험 결과를 바탕으로 사람이 이해하기 어려운 여러 주성분들 간의 복합적인 효과 패턴을 찾아 최종 수치를 예측해주기 때문에 정확도와 신뢰도 측면에서 크게 향상된 결과를 보여줍니다. 여기에 자외선 차단 수치에 영향을 미칠 수 있다고 판단한 4가지의 새로운 인자들을 추가해 예측성능도 높였습니다.

새로 추가한 4가지 인자는 무엇이며, 어떻게 추가할 생각을 하게 되셨나요?

일반적으로 자외선 차단제는 주성분 함량을 통해 대략적인 자외선 차단수치의 예측이 가능합니다. 하지만 보다 정확한 예측을 위해서는 주성분 외에도 다른 첨가물들의 영향 역시 고려해야 하지요. 이번에 개발한 예측모델 개발 과정에서도 기술연구원장님을 비롯한 여러 선배 연구원분들께서 주성분 외의 추가적인 인자들의 역할에 대해 알아보면 더 좋을 것 같다는 의견을 주셨습니다. 주로 나온 의견으로는 실험 참가자의 피부타입, 피부 홍반량, 제형타입, 제품타입, 색소 사용 여부, 안료급 TiO2 함량 등이 있었습니다. 이러한 추가 인자들의 영향에 대해 선행연구 문헌조사를 실시했고, 주성분 함량이 동일할 때 오일타입의 제품보다 크림타입의 제품이 더 자외선 차단 효과가 좋다는 연구결과와 제품에 포함된 색소가 자외선 차단제의 광학적 특성에 영향을 미친다는 결과 등을 찾아볼 수 있었습니다¹. 이러한 문헌조사를 바탕으로 여러 가지 추가 인자들을 조합한 예측모델을 시뮬레이션 한 결과, ①제형타입 ②제품타입 ③색소사용여부 ④안료급 TiO2 함량이라는 4가지 인자가 자외선 차단제의 효능에 중요한 영향을 미치는 요인들임을 알 수 있었지요. 4가지 인자를 추가한 결과, 주성분만으로 예측한 모델보다 훨씬 예측의 정확도와 신뢰도가 높다는 것을 확인할 수 있었습니다.

데이터가 어떻게 도출되어야 이상적인 예측결과라고 볼 수 있을까요?

논문에 소개되어 있는 그래프(그림 1, 2)를 보시면, Y축은 실제 임상시험 측정결과, X축은 머신러닝을 통해 도출된 예측결과 값임을 알 수 있습니다. 실제 측정값과 예측값의 상관관계를 보는 그래프로서 기울기(slope)가 1에 가까울수록 예측모델의 정확도가 높고, r값이 1에 가까울수록 신뢰도가 높다고 볼 수 있지요. 언뜻 보기에는 모델에 들어가는 변수가 많아지면(모델이 복잡해지면), 더 예측이 잘될 것이라고 생각할 수도 있으나 실제로는 그렇지 않습니다. 다양한 변수들이 오히려 예측모델의 오류(noise)를 유발하는 원인이 되기 때문입니다. 예를 들어 절대적 평가 값인 예측도가 90% 이상으로 높게 나온다고 하더라도, 여러 번 반복 시 각각의 결과 사이의 오차가 너무 크다면 이는 통계적으로 유의미한 결과라고 보기 어렵습니다. 따라서 예측결과에 유의미한 영향을 미치는 인자들을 잘 선정해 오차율이 낮으면서도 예측률이 높은 모델을 만들어야 했지요.

대학에서 머신러닝과 관련된 공부를 전공하신건가요?

사실 대학 전공과는 전혀 관련이 없어요(웃음). 생물학과를 나와 여름방학 기간에 행동생태학 연구실에서 인턴을 했었고, 올챙이의 행동에 대한 연구로 학부 졸업논문을 썼습니다. 올챙이가 본인의 유전자에 따라 행동이 달라진다는 연구결과가 정말 흥미로웠고, 실험을 하는 것 자체가 즐거워서 대학원 진학을 결심하게 되었지요.

석사 진학 후에는 연구 분야를 조금 바꿔서 발모 촉진 및 탈모 방지에 관한 연구를 진행했어요. 단백질 기능제어 연구실에서 모낭세포에 wnt/β-catenin Pathway를 타깃팅하는 특정 물질을 처리하여 발모 촉진 효과가 있는지를 확인하는 실험을 했고, 실험실 선배들과 상처 치유 및 지방분화 억제 등에 대한 연구를 했습니다. 학위과정 동안에는 세포 및 동물실험 위주의 연구를 주로 했고, 머신러닝 기술은 회사에 입사하고 나서 처음으로 공부를 시작한 셈이지요.

전공 분야와 전혀 다른 분야를 새로 공부하는 게 막막했을 것 같아요.

물론 결코 쉬운 과정은 아니었어요. 컴퓨터 프로그래밍부터도 전공과는 거리가 멀어서 시작부터 참 막막했지요. 초반에 머신러닝의 개념을 이해할 때는 온라인상에 공개되어있는 자료를 유용하게 사용했습니다. 제가 혼자서 이해하기 어려운 부분에 대해서는 다른 LG계열사에서 머신러닝을 주 업무로 담담하고 있던 지인의 도움을 받기도 했지요. 저의 예측모델의 경우 입력과 출력 데이터가 있는 감독학습 방식을 사용해야 한다는 것도 그 지인과의 논의를 통해 나온 아이디어였는데, 지금 생각해보면 완전히 이 일에 빠져있었던 것 같아요. 논문을 작성하던 시기에는 퇴근하고 나서도 이 일에 대한 생각만 계속 했었거든요. 저만의 차별화된 모델을 구축한다는 것에 보람이 있었고, 전혀 모르고 있던 새로운 분야를 공부한다는 것만으로도 정말 재미있었어요.

주 업무인 효능평가를 위해서는 모든 개발 부서와 연계되어있을 것 같은데 어려움은 없었나요?

효능·인체시험연구 랩은 모든 제품개발 부서 및 고객, 외부 평가기관들과 밀접하게 연계되어 중간 매개체로서의 역할을 하고 있습니다. 이렇게 여러 구성원들 사이의 원활한 소통과 연구수행을 위해 중요한 역할을 하다 보니 어쩔 수 없는 어려움이 따르더라고요. 자외선 차단제 임상시험 업무를 담당할 때에는 제품개발 부서에서 기대하는 SPF, PA 수치가 있는 반면 외부 임상시험 기관에서 간이시험 결과로 기대하는 수치를 주지 않는 경우가 많아서, 각각의 어려움을 모두 중간자인 저에게 토로하곤 했던 기억이 나네요. 제 입장에서도 직접 실험하거나 개발한 제품이 아니다보니 중간에서 내용을 전달하기가 쉽지 않았지요. 그렇지만 최대한 중립적인 입장에서 제품개발 부서에는 더 좋은 제품을 만들 수 있도록, 고객 및 평가기관들로부터는 더 솔직한 피드백을 들을 수 있도록 노력했습니다.

이번 연구로 기대하는 바가 있다면.

LG생활건강이 이번 연구를 시작으로 화장품 시장의 AI 융합연구를 선도하는 퍼스트 무버(first mover)가 될 수 있었으면 좋겠어요. 화장품 및 생활용품 산업은 AI 기술이 접목될 부분이 무궁무진하다고 생각합니다. 고객맞춤형 제품개발 뿐만 아니라, 본 연구에서 제시한 것처럼 제품 처방 개발의 효율성을 증대시키는 용도로 사용될 여지도 많기 때문이지요. 특히 LG생활건강의 경우 LG전자와 LG CNS 등 AI 기술력이 뛰어난 그룹사들과 협력 연구를 할 수 있는 여건이 잘 갖추어져 있기 때문에 다른 경쟁업체들보다 더 유리한 입지에서 AI 융합연구를 할 수 있을 것이라고 기대됩니다. 따라서 회사에서도 AI 기술의 중요성을 더 깨닫고 관심이 있는 연구원들에게 관련 교육을 받을 수 있는 기회를 더 주었으면 좋겠습니다. 이미 전 세계적으로 AI 전문가들이 많이 배출되고 있지만, 업계의 특성과 생태를 이해하는 전문가를 육성하는 문제는 또 다른 차원의 의미를 갖는다고 생각합니다. 저 역시도 보다 전문적인 공부를 통해 다양한 분야에 AI 기술을 접목하고 싶어요.

개인적으로 해보고 싶은 연구 분야가 있나요?

아무래도 현재 피부 특성에 대해 연구하다보니 피부상태를 더 자세하게 분석하기 위한 이미지 분석 연구에 관심이 많아요. 이를 위해서는 컴퓨터 프로그래밍과 AI 기술에 대해 지금보다 훨씬 심층적으로 공부해야겠지요. 눈가, 입술 등 특정 신체부위에만 국한하지 않고 다양한 부위에 이미지 분석기술을 적용해 보고 싶어요. 예를 들어 얼굴에 색소침착이 생길 경우, 개인 스스로 심각성에 대한 객관적인 판단이 어려운데요. 이때 피부 이미지를 찍어서 수치화한 후 분석할 수 있는 지표를 만든다면, 그 지표만 보고서도 색소침착의 정도를 파악할 수 있을 겁니다. 이렇게 응용할 수 있는 분야가 무궁무진한 만큼 이미지 분석기술을 꼭 배우고 싶어요.

인터뷰를 마무리하면서.

현재 입사 3년차가 된 초보 연구원으로서 경험이 부족함에도 회사에서 많은 지원을 해주었기에 지금의 연구 성과를 얻을 수 있었다고 생각해요. 아직도 많이 부족하고 앞으로 더 공부해야 할 부분들이 많지만, 지금처럼 하고 싶은 연구에 열정을 가지고 임할 수 있는 환경이 주어진다면 무엇이든 해낼 수 있을 것 같은 자신감이 생겼습니다.

업계의 특성상 언제나 고객의 니즈를 빠르게 파악하여 적시에 제품을 개발해야하기 때문에, 저와 같은 개발 지원부서 소속 연구원이 논문작성을 위해 장기적인 연구를 수행하기는 어려운 것이 사실이에요. 특히 평가업무와 같이 반복적인 업무만 수행한다면 그 분야 내에서 전문가가 될 수는 있을지 몰라도, 다른 분야에서 일어나고 있는 다양한 변화를 인지하고 새로운 기회를 포착하기는 어렵겠지요. 따라서 지금 제가 하고 있는 일 외에도 항상 새로운 변화에 대해 관심을 가지고, 다양한 접근법들을 제 업무에 접목해보는 도전정신을 잃지 않아야 할 것 같습니다. 앞서 언급한바와 같이 LG그룹이라는 융복합 연구에 최적화된 환경을 이미 갖추고 있는 상황에서 우리 연구원들과 회사에서 더 적극적인 자세로 임한다면, 업계를 선도하는 퍼스트 무버로 발돋움할 수 있을 것이라고 기대해봅니다.

Machine learning for the prediction of sunscreen sun protection factor and protection grade of UVA

ABSTRACT

We report a prediction model for sunscreen sun protection factor (SPF) and protection grade of ultraviolet (UV) A (PA) based on machine learning. We illustrate with real clinical test results of UV protection ability of sunscreen for SPF and PA. With approximately 2200 individual clinical results for both SPF and PA level detection, individually, we were SPF and PA prediction rates through machine learning. Furthermore, we included four new factors—presence of pigment, concentration of pigment grade titanium dioxide, type of formulation and type of product—as additional information for the prediction model and were able to see increased prediction rates as results.

KEYWORDS

Machine learning, PA, Prediction model, Protection grade of UVA, Sun protection factor

1. C. Couteau et al., 2016; D. Moyal et al., 2000.

김민주 기자 joo@thekbs.co.kr

다른기사 보기

자외선차단 수치를 더 정확히 예측하는 머신러닝 모델

LG생활건강 효능·인체시험연구Lab 심지용 선임연구원

웰니스 뷰티, 첨단산업과 융합하며 진화

“ 한국과 이탈리아의 장점 살려 색조분야 ‘게임 체인저’ 되겠다 ”

“전통 뷰티 기업도 테크기업으로 거듭나고 있다”

46년 멈추지 않은 변화와 혁신 고객사와 함께 글로벌 뷰티 리더로 성장

천연 성분 기반 나노입자가 첨가된 생분해성 패치 개발