세계 414만 개 레시피를 학습한 AI에게 쌀과 인도를 입력하자 커리잎 결과가 나왔다

발행일 : 2026-06-09 10:39 업데이트 : 2026-06-09 14:46

요리사에게 닭고기와 무엇이 어울리냐고 물으면 답은 하나가 아니다. 누군가는 같이 볶을 마늘과 양파를 떠올리고, 누군가는 맛이 비슷한 돼지고기와 소고기를 떠올린다. 인공지능 기업 카이카쿠(KAIKAKU.AI)의 야쿱 라지코프스키(Jakub Radzikowski)와 조셉 첸(Josef Chen)이 2026년 5월 공개한 연구 에피큐어(Epicure)는 이 두 갈래의 직관을 모두 컴퓨터가 계산하게 만들었다. 7개 언어 414만 개 레시피를 학습한 AI 식재료 임베딩(ingredient embedding) 모델이, 누가 정답을 가르쳐 주지 않았는데도 세계 음식 재료의 지도를 스스로 그려낸 것이다. 이 지도는 식당 메뉴 추천부터 대체 재료 찾기, 퓨전 요리 설계까지 바꿀 수 있다.

정답을 가르치지 않아도 재료를 문화권별로 묶은 AI

카이카쿠가 발표한 에피큐어는 7개 언어 414만 개 레시피를 학습해, 사람이 정답표를 주지 않았는데도 식재료를 요리 문화권별로 스스로 묶어냈다. 여기서 AI 식재료 임베딩(ingredient embedding)이란 각 재료를 300개의 숫자로 이뤄진 좌표로 바꿔, 자주 함께 쓰이는 재료끼리 가까이 놓이도록 만든 일종의 재료 지도를 말한다. 한 재료가 어느 자리에 찍히는지는 사람이 정하지 않는다. 수백만 개의 레시피에서 어떤 재료들이 한 그릇에 함께 등장하는지를 보고 AI가 스스로 위치를 정한다.

그 결과를 2차원 그림으로 펼쳐 보니, 동아시아 재료, 남아시아 재료, 중남미 재료, 지중해 재료가 각각 또렷하게 다른 구역에 모여 있었다. 간장과 표고버섯이 한쪽에 모이고, 커리잎과 강황이 다른 쪽에 모이는 식이다. 누구도 "간장은 동아시아"라고 입력하지 않았는데도 재료들이 알아서 고향을 찾아간 셈이다. 카이카쿠가 이전에 분석했던 기존 모델 플레이버그래프(FlavorGraph)가 영어권 레시피 하나에 묶여 있었던 것과 달리, 에피큐어는 처음부터 여러 언어로 다시 학습해 이 지도를 더 넓고 균형 있게 그렸다.

Photo Image — 그림 1. 요리 문화권별로 또렷하게 갈라진 에피큐어 세 모델의 식재료 지도 (출처: Epicure 논문, arXiv:2605.22391)

그림 1. 요리 문화권별로 또렷하게 갈라진 에피큐어 세 모델의 식재료 지도 (출처: Epicure 논문, arXiv:2605.22391)

20만 개 재료 이름을 1,790개로 정리한 7개 언어 데이터

에피큐어는 11개 공개 데이터셋에서 모은 4,135,189개 레시피를 바탕으로 만들어졌다. 영어 레시피 모음 RecipeNLG가 전체의 53.9%, 중국어 모음 샤추팡(XiaChuFang)이 37.4%로 두 언어가 큰 비중을 차지했고, 러시아어, 베트남어, 스페인어, 터키어, 인도네시아어, 독일어, 인도식 영어가 나머지를 채웠다. 처음 긁어모은 재료 이름은 철자 변형과 브랜드명, 손질 방식까지 뒤섞여 약 20만 개에 달했다. 연구진은 클로드 오푸스(Claude Opus)로 외국어 재료명을 번역하고 분류하며, 제미나이(Gemini) 임베딩으로 비슷한 표현을 묶어 이 20만 개를 1,790개의 표준 재료로 추려냈다. 200만 개에 가까운 어수선한 이름을 1,790개로 줄였다는 것은, 같은 재료를 부르는 수십 가지 다른 이름을 하나로 합쳐 비로소 깨끗한 지도를 그릴 바탕을 만들었다는 뜻이다.

학습에 쓰인 레시피의 문화권 분포도 흥미롭다. 동아시아 요리가 약 154만 개로 가장 많고, 서구 대서양권 약 20만 개, 지중해권 약 16만 개 순이며, 일본 요리는 약 3만 4천 개로 가장 적었다. 이렇게 재료의 출신 문화를 구분하는 일을 AI가 얼마나 잘 해내는지 수치로 따져 보니, 문화권을 가르는 선명도를 뜻하는 코헨의 d(Cohen's d) 값이 세 모델에서 각각 2.43, 2.70, 3.07로 나왔다. 통계에서 이 값이 0.8만 넘어도 큰 차이로 보는데, 3에 가까운 수치는 AI가 재료의 국적을 거의 헷갈리지 않고 가른다는 의미다.

같이 요리되는 맥락과 맛 성분, 두 갈래로 갈린 닭고기의 짝

에피큐어가 특별한 이유는 똑같은 구조에 학습 방식만 다른 세 형제 모델을 함께 내놓았기 때문이다. 쿡(Cooc)은 레시피에서 함께 등장한 빈도, 곧 같이 요리되는 맥락만 본다. 켐(Chem)은 향 분자 데이터베이스인 플레이버DB(FlavorDB)의 화학 성분, 곧 맛이 비슷한 정도만 본다. 코어(Core)는 둘을 섞는다. 이때 기준이 되는 동시 등장 정도는 NPMI라는 지표로 따지는데, 두 재료가 우연보다 얼마나 자주 한 레시피에 함께 나오는지를 숫자로 잰 값이다.

세 모델은 같은 질문에 서로 다른 답을 내놓는다. 닭고기와 어울리는 재료를 물으면, 같이 요리되는 맥락을 보는 쿡은 마늘과 양파처럼 함께 볶는 채소를 먼저 꺼낸다. 반면 맛 성분을 보는 켐은 돼지고기와 소고기처럼 풍미가 비슷한 다른 고기를 먼저 꺼낸다. 바질도 마찬가지다. 쿡은 바질과 자주 쓰이는 파슬리를 떠올리지만, 켐과 코어는 오레가노와 타라곤 같은 이탈리아 허브 무리를 떠올린다. 냉장고에서 무언가를 대신 집어 들 때 "이거랑 같이 뭘 만들었더라"를 묻는 사람과 "이거랑 맛이 비슷한 게 뭐였더라"를 묻는 사람이 갈리는데, 에피큐어는 그 두 갈래를 각각 다른 모델로 구현한 셈이다.

쌀을 남아시아로 회전시키면 커리잎, 옥수수를 중남미로 돌리면 토마티요

에피큐어에서 가장 눈에 띄는 기능은 재료를 특정 요리 방향으로 회전시키는 조작이다. 연구진은 이를 위해 슬러프(SLERP)라는 방법을 썼는데, 한 재료의 좌표를 원하는 문화권 방향으로 각도만큼 돌려 그 방향에 있는 재료를 끌어오는 기술이다. 각도가 0도면 원래 재료 그대로이고, 60도까지 돌리면 목표 문화권의 재료가 화면을 채운다.

실제 결과는 마치 요리 번역기 같다. 쌀을 남아시아 방향으로 30도 돌리자 커리잎, 마소르달, 우라드달, 차나달, 호로파씨가 줄줄이 나왔다. 인도 가정의 향신료 선반을 그대로 옮겨 놓은 듯한 목록이다. 옥수수를 중남미 방향으로 돌리면 살사 베르데, 토마티요, 케소 프레스코, 옥수수 토르티야가 나온다. 가공식품과 서구 대서양 방향을 동시에 걸어 닭고기를 60도 돌리면, 스위스 치즈와 랜치 드레싱, 크림 오브 치킨 수프처럼 20세기 중반 미국 가정식의 단골 재료가 모인다. 한국 식탁에 익숙한 재료 하나를 골라 머릿속으로 다른 나라 방향으로 돌려 보면, 내가 평소 어느 요리 문화의 손잡이를 쥐고 있었는지 가늠해 볼 수 있다.

문화가 영양보다 재료 관계를 더 또렷하게 가른다

에피큐어가 던지는 가장 반직관적인 발견은 따로 있다. 재료를 묶는 힘이 영양보다 문화에서 더 세게 나온다는 점이다. AI가 같은 영양 그룹(곡물, 육류 같은 분류)끼리 재료를 모으는 정도는 정규화 상호정보량(NMI) 기준 0.20에서 0.25였지만, 같은 요리 문화권끼리 모으는 정도는 0.43에서 0.46으로 거의 두 배였다. 무엇으로 만들어졌느냐보다 어느 문화에서 함께 쓰였느냐가 재료의 자리를 더 깔끔하게 정한다는 뜻이다. 영양 성분표가 같아도 쓰임이 다르면 멀어지고, 성분이 달라도 같은 부엌에서 만나면 가까워지는 것이 음식의 실제 풍경이라는 이야기다.

스스로 떠오른 묶음의 품질도 높았다. AI는 라벨 없이도 모델마다 150개에서 200개의 의미 있는 재료 무리를 찾아냈다. 단 음식과 디저트 재료, 남아시아 통향신료, 멕시코와 중남미 식료품 같은 이름이 붙는 무리들이다. 이 무리들이 우연히 모인 것이 아님을 확인해 보니, 무작위로 짝지었을 때보다 5배에서 6배 더 단단하게 뭉쳐 있었다. 참고로 연구진이 비교군으로 둔 기존 모델 플레이버그래프는 "사워도우 롤"이나 "필라델피아 크림치즈를 살짝 넣은 크래프트 트리플 체더치즈" 같은 어수선한 상품명을 이웃으로 내놓아, 깨끗하게 정리된 에피큐어의 목록과 대비를 이뤘다.

코드 비공개라는 단서와 남은 질문

에피큐어는 화학과 레시피 맥락이라는 두 신호를 따로 떼어내 손잡이로 만들었다는 점에서, 요리 도구로서의 가능성을 분명히 보여준다. 다만 연구진은 코드와 학습된 모델을 지금은 공개하지 않는다고 밝혔다. 누구나 직접 돌려보고 검증하기는 아직 어렵다는 의미이며, 발표된 수치와 사례를 바탕으로 가능성을 가늠해야 하는 단계다.

학습 데이터의 절반 이상이 영어와 중국어 레시피라는 점도 함께 볼 대목이다. 두 언어가 전체의 90%를 넘기 때문에, 태그된 재료 수가 적은 동유럽이나 남아시아 요리에서는 재료 사이의 경계가 더 흐릿하게 나타날 가능성이 있다. 이 지도가 모든 문화권을 똑같이 정확하게 그려내는지는 더 많은 데이터가 쌓인 뒤에 두고 볼 필요가 있다. 그럼에도 한 재료를 다른 문화 방향으로 돌려 보고, 같이 요리되는 짝과 맛이 닮은 짝을 골라 받아 보는 경험은, 요리하는 사람에게 익숙한 재료를 낯선 눈으로 다시 보게 하는 도구가 될 수 있다.

FAQ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)

Q. 식재료 임베딩이 무엇인가요?
식재료 임베딩은 각 재료를 숫자 좌표로 바꿔, 자주 함께 쓰이는 재료끼리 가까이 놓이도록 만든 재료 지도입니다. 에피큐어는 414만 개 레시피를 학습해 재료마다 300개의 숫자로 된 위치를 부여했고, 이 좌표를 통해 어떤 재료끼리 잘 어울리는지를 컴퓨터가 계산할 수 있습니다.

Q. 세 모델 쿡, 코어, 켐은 무엇이 다른가요?
세 모델은 구조는 같고 학습 방식만 다릅니다. 쿡은 레시피에서 함께 등장한 빈도만 보고, 켐은 향 성분의 화학적 유사성만 보며, 코어는 둘을 섞습니다. 그래서 같은 닭고기를 물어도 쿡은 마늘과 양파를, 켐은 돼지고기와 소고기를 먼저 추천합니다.

Q. 이 기술은 어디에 쓸 수 있나요?
식당 메뉴 추천, 대체 재료 찾기, 퓨전 요리 설계 등에 쓸 수 있습니다. 특히 한 재료를 다른 나라 요리 방향으로 회전시켜 그 문화권의 비슷한 재료를 찾아내는 기능은, 새로운 조합을 빠르게 탐색하려는 요리사에게 유용한 도구가 될 수 있습니다. 다만 현재 코드와 모델은 공개되지 않은 상태입니다.

기사에 인용된 리포트 원문은 arXiv에서 확인할 수 있다.
리포트명: Epicure: Navigating the Emergent Geometry of Food Ingredient Embeddings
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.

■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. (☞ 기사 원문 바로가기)