개요
신용 정보가 전무한 인도의 10억 명, ‘넥스트 빌리언(Next Billion)’ 사용자를 대상으로 AI 기반 신용 평가 시스템을 구축하는 것이 금융 AI의 최대 난제로 떠오르고 있습니다. 한국 스타트업 어피닛(구 밸런스히어로)은 스마트폰 사용 로그 같은 비정형 데이터를 활용해 신용 리스크와 이탈 시점을 예측하는 독창적인 AI 아키텍처를 개발했고, 아프리카와 인도 시장을 타겟으로 한 글로벌 금융 AI 챌린지에서 연달아 상위권을 차지하며 그 기술력을 입증했습니다.
이 영상은 안될공학(Error)이 데이터 엔지니어링과 AI 아키텍처에 대한 전문성을 바탕으로 제작한 기술 분석 콘텐츠입니다. 안될공학은 복잡한 기술을 엔지니어 관점에서 체계적으로 풀어내는 것으로 알려진 유튜브 채널로, 구독자들에게 실무에 적용 가능한 깊이 있는 인사이트를 제공하고 있습니다.
핵심 내용
넥스트 빌리언의 금융 소외 문제
전통 금융 시스템은 정형화된 신용 기록을 기반으로 작동합니다. 하지만 2017년 이후 처음 인터넷에 접속하기 시작한 인도의 넥스트 빌리언(중산층 이하 소득 계층, 약 10억 명)은 금융 이력 자체가 존재하지 않습니다. 이들에게는 ‘과거 기록 부재’라는 근본적인 문제가 있어 전통적인 신용 평가 방식으로는 접근이 불가능합니다.
실제로 인도에서는 저소득층 가구 10가구 중 9가구가 온라인 상태에 있고, 성인의 60% 이상이 온라인 활동을 하지만 여전히 전통적인 금융 데이터가 부족합니다. 디지털 격차 문제도 심각한데, 넥스트 빌리언의 55%가 온라인 사기나 괴롭힘을 경험했고, 28%는 안전 문제 때문에 디지털 서비스 이용을 중단한 경험이 있습니다.
어피닛이 주목한 것은 이들이 매일 사용하는 스마트폰에서 발생하는 비정형 데이터입니다. 넥스트 빌리언 사용자들은 하루 평균 3시간 이상 온라인에서 보내며, 디지털 결제, 콘텐츠 제작, 전자상거래 같은 고급 디지털 서비스를 사용합니다. 이들의 스마트폰 사용 패턴 자체가 새로운 형태의 신용 증명서가 될 수 있다는 것이 어피닛 접근법의 핵심입니다.
글로벌 AI 챌린지 3관왕 달성
어피닛은 서로 다른 성격의 세 가지 국제 금융 AI 챌린지에서 모두 상위권을 차지하며 종합적인 기술력을 입증했습니다.
첫 번째는 아프리칸 크레딧 스코어링 챌린지로, 아프리카 신흥 시장의 불확실한 데이터 환경에서 신용 리스크를 정밀하게 추정하는 과제였습니다. 전통적인 금융 기록이 없는 환경에서 비정형 데이터만으로 신용도를 평가해야 하는 고난도 챌린지였죠.
두 번째는 핀서브 서바이벌 챌린지(Fin Surv Survival Challenge)입니다. 단순히 “대출 상환 가능 여부”를 판단하는 수준을 넘어, 사용자의 생애 주기(라이프사이클) 내에서 이탈 시점과 생존 시점을 예측하는 고난도 생존 분석(Survival Analysis) 과제였습니다. 이는 시간 축 위에서 리스크를 추적하는 방식으로, 기존 신용평가 모델보다 훨씬 복잡한 접근이 필요합니다.
세 번째는 핀 DDR 챌린지로, LLM 에이전트가 수백 페이지에 달하는 기업 연차 보고서 같은 복잡한 재무 문서를 읽고 리서치 리포트를 자동 생성하는 과제였습니다. 이는 신용 평가를 넘어 금융 문서, 규제 문서, 계약서 등 대용량 텍스트를 AI가 이해하고 분석하는 능력을 시험하는 챌린지였죠.
어피닛의 3단계 AI 아키텍처
어피닛의 기술 스택은 크게 세 단계로 구성되어 있습니다.
1단계: 데이터 레이크와 파이프라인 구축
스마트폰에서 발생하는 모든 행동 기록(앱 실행, 결제, 영상 시청, 물건 구매 등)을 실시간으로 수집해 중앙 데이터 레이크에 저장합니다. 인도 인구의 상당수가 하루에도 여러 시간 동안 디지털 활동을 하기 때문에, 이 로그 데이터를 실시간으로 받아서 중간에 끊기지 않고, 서로 섞이거나 유실되지 않게 처리하는 것 자체가 큰 기술력입니다.
2단계: 피처 엔지니어링과 모델링
원시 데이터(로우 데이터)만으로는 AI가 의미를 이해하기 어렵습니다. 어피닛의 엔지니어들은 수천 개의 의미 있는 특성(피처)을 추출합니다. 예를 들어, “하루 평균 앱 사용 시간”, “결제 주기 패턴”, “특정 시간대 활동 밀도” 같은 지표들을 만들어내죠. 이런 피처 엔지니어링 능력이 아프리칸 크레딧 스코어링 챌린지와 핀서브 서바이벌 챌린지에서 글로벌 수준의 성과로 이어졌습니다.
3단계: MLOps – 모델 운영 자동화
모델을 한 번 잘 만드는 것과 그 모델을 매일 안정적으로 운영하는 것은 완전히 다른 문제입니다. 어피닛은 수백만 명의 데이터를 매일 갱신하고, 모델 성능이 떨어지면 자동으로 새 버전으로 교체하며, 예측 성능을 상시 모니터링하는 MLOps 파이프라인을 갖추고 있습니다. 시장 환경이 변화해 데이터 분포가 달라지면(데이터 드리프트) 자동으로 감지해 모델을 재학습시키고, 이상 징후가 감지되면 서비스 중단 없이 새 모델로 교체하는 자동화된 운영 체계를 구현했습니다.
LLM 에이전트를 활용한 문서 분석 확장
최근 어피닛은 숫자 중심의 정형 데이터 처리에서 한 걸음 나아가 텍스트 문서 형태로 기술을 확장하고 있습니다. 핀 DDR 챌린지가 대표적인데, 여기서는 AI가 수백 페이지의 연차 보고서를 통째로 읽고 재무 분석 리포트를 스스로 작성합니다.
이 기술이 고도화되면 신용 평가뿐 아니라 복잡한 금융 문서, 규제 문서, 계약서, 더 나아가 인도의 디지털 공공 인프라(DPI)에 축적된 헬스케어·핀테크·교육 관련 문서들까지 AI가 먼저 읽고 요약·분석하는 것이 가능해집니다. 결국 어피닛의 기술 스택은 단순히 리스크를 예측하는 수준을 넘어, 인도 전체의 디지털 경제에서 복잡한 데이터와 문서를 해석해 주는 AI 인프라로 확장될 가능성을 보여주고 있습니다.
실전 활용법
어피닛의 AI 아키텍처를 다른 영역에 적용하려면 다음 과정을 따라볼 수 있습니다.
1단계: 비정형 데이터 소스 파악
먼저 타겟 사용자가 일상에서 생성하는 디지털 흔적을 파악합니다. 금융이라면 스마트폰 사용 로그, 이커머스라면 장바구니·검색 이력, 헬스케어라면 웨어러블 디바이스 데이터가 될 수 있습니다. 중요한 것은 ‘정형화된 기록이 없는 사용자’를 대상으로 하기 때문에 기존 시스템이 간과했던 데이터 소스를 찾아야 한다는 점입니다.
예상 소요 시간은 2주에서 1개월 정도이며, 데이터 소스의 접근 가능성(API, SDK, 파트너십)과 법적 허용 범위(개인정보보호법, 데이터 수집 동의)를 동시에 검토해야 합니다.
2단계: 데이터 파이프라인 구축
실시간으로 데이터를 수집하고 저장하는 인프라를 설계합니다. 클라우드 기반의 데이터 레이크(AWS S3, Google Cloud Storage 등)와 스트리밍 처리 시스템(Kafka, Kinesis)을 조합해 데이터 유실 없이 안정적으로 적재하는 구조를 만듭니다.
이 단계에서는 데이터 엔지니어링 전문성이 필요하며, 초기 인프라 비용과 운영 비용을 고려해야 합니다. 초기 PoC(개념 증명) 단계에서는 소규모 데이터셋으로 시작해 점진적으로 확장하는 것이 효율적입니다.
3단계: 피처 엔지니어링 및 모델 개발
수집된 원시 데이터에서 의미 있는 특성(피처)을 추출합니다. 도메인 전문가와 데이터 과학자가 협업해 “무엇이 신뢰를 나타내는 지표인가”를 정의합니다. 예를 들어, 금융에서는 “일정한 결제 주기”, “앱 사용 시간의 규칙성”, “특정 카테고리 앱 사용 빈도” 같은 지표가 신용도와 상관관계가 있을 수 있습니다.
모델은 XGBoost, LightGBM 같은 그래디언트 부스팅 모델부터 시작해, 필요하면 딥러닝 기반의 시계열 모델(LSTM, Transformer)로 확장할 수 있습니다. 생존 분석(Survival Analysis)이 필요하다면 Cox Proportional Hazards 모델이나 DeepSurv 같은 기법을 고려해야 합니다.
3가지 시나리오별 적용법
시나리오 A: 중소기업 신용 평가
전통 금융 기록이 부족한 소상공인이나 프리랜서를 대상으로 디지털 결제 이력, 온라인 판매 데이터, 소셜 미디어 활동 패턴 등을 결합해 신용도를 평가합니다. 네이버페이, 토스, 카카오페이 같은 간편결제 데이터와 배달의민족·쿠팡 같은 플랫폼 거래 이력을 활용할 수 있습니다.
시나리오 B: 이커머스 고객 이탈 예측
생존 분석 기법을 적용해 “이 고객이 언제쯤 이탈할 것인가”를 예측합니다. 최근 방문 빈도 감소, 장바구니 담기 후 구매 전환율 하락, 고객 센터 문의 증가 같은 신호를 시계열로 추적해 이탈 위험도를 실시간으로 계산하고, 적절한 타이밍에 리텐션 캠페인을 실행합니다.
시나리오 C: 헬스케어 환자 모니터링
만성질환 환자의 웨어러블 디바이스 데이터(심박수, 수면 패턴, 활동량)와 앱 사용 이력(복약 알림 확인, 건강 정보 검색)을 결합해 “재발 위험도”나 “병원 재방문 시점”을 예측합니다. 이를 통해 의료진이 선제적으로 개입할 수 있는 타이밍을 제안합니다.
심층 분석
기술적 강점
어피닛의 접근법은 전통 금융 AI와 차별화되는 세 가지 강점이 있습니다.
첫째, 비정형 데이터 활용 능력입니다. 대부분의 금융 AI는 신용카드 사용 내역, 대출 상환 기록 같은 정형 데이터에 의존합니다. 하지만 어피닛은 스마트폰 사용 로그라는 완전히 다른 데이터 소스를 활용해 ‘기록이 없는 사람’에게도 기회를 제공합니다.
둘째, 시간 축 기반의 리스크 추적입니다. 단순히 “대출 가능/불가능”을 이진 분류하는 것이 아니라, 생존 분석을 통해 “언제쯤 리스크가 발생할 것인가”를 시계열로 예측합니다. 이는 금융 기관이 선제적으로 리스크를 관리할 수 있게 해줍니다.
셋째, MLOps 자동화입니다. AI 모델은 시간이 지나면 성능이 떨어집니다(모델 드리프트). 어피닛은 이를 자동으로 감지하고 재학습·배포하는 파이프라인을 갖춰, 수백만 명의 데이터를 안정적으로 처리합니다.
비판적 검토 및 한계점
영상에서 다루지 않은 몇 가지 한계점과 리스크도 존재합니다.
프라이버시와 감시 우려: 스마트폰 사용 로그를 전면적으로 수집한다는 것은 사용자의 일상 전체를 추적한다는 의미입니다. 어피닛은 엔드투엔드 암호화, 비식별화 처리, ISO 27001 같은 국제 보안 표준을 준수한다고 밝혔지만, 사용자 입장에서는 “내 폰을 다 본다”는 불안감이 여전히 남습니다. 특히 넥스트 빌리언의 28%가 안전 문제로 디지털 서비스를 중단한 경험이 있다는 점을 감안하면, 신뢰 구축이 기술 개발만큼 중요합니다.
AI 편향성(Bias) 문제: 특정 지역, 연령대, 성별, 직업군에 따라 스마트폰 사용 패턴이 다를 수 있습니다. 예를 들어, 농촌 지역 사용자와 도시 사용자의 앱 사용 패턴이 다를 경우, 모델이 농촌 사용자를 체계적으로 불리하게 평가할 위험이 있습니다. 어피닛은 설명 가능한 AI(Explainable AI)와 지속적인 모니터링·보정 체계를 강조하지만, 구체적인 편향성 감지 및 완화 방법론은 영상에서 자세히 다루지 않았습니다.
모델 과적합과 일반화 문제: 인도 시장에서 잘 작동하는 모델이 다른 신흥 시장(아프리카, 동남아시아)에서도 동일하게 작동할지는 불확실합니다. 각 지역의 문화적·경제적 맥락이 다르기 때문에, 모델을 지역별로 재학습하거나 피처를 조정해야 할 가능성이 높습니다.
규제 환경 변화: 인도를 비롯한 많은 국가에서 개인정보보호 규제가 강화되고 있습니다. 인도의 개인정보보호법(DPDPA, 2023년 시행)은 사용자 데이터 수집에 명시적 동의를 요구하며, 데이터 현지화(localization) 조항도 포함되어 있습니다. 규제 환경이 변할 경우 데이터 수집 방식이나 저장 위치를 전면 재설계해야 할 수도 있습니다.
업계 동향 및 경쟁 환경
인도 소비 시장은 2034년까지 소매 시장 규모가 폭발적으로 성장할 것으로 예상됩니다. 이에 따라 글로벌 핀테크 기업들(PayTM, PhonePe, Google Pay)과 전통 금융 기관들도 AI 기반 신용 평가 시스템에 투자를 확대하고 있습니다.
특히 인도 정부가 추진하는 디지털 공공 인프라(DPI) 프로젝트(Aadhaar, UPI, DigiLocker 등)는 방대한 디지털 신원·결제·문서 데이터를 제공하고 있어, 이를 활용한 AI 금융 서비스가 빠르게 발전하고 있습니다. 어피닛의 경쟁력은 단순히 신용 평가 모델 하나를 잘 만드는 것을 넘어, 비정형 데이터 처리·생존 분석·LLM 문서 해석을 모두 아우르는 종합적인 AI 인프라를 갖췄다는 점입니다.
향후에는 단순 금융을 넘어 헬스케어(보험 인수심사, 재발 예측), 교육(학습 이탈 예측, 맞춤형 커리큘럼), 고용(프리랜서 신뢰도 평가) 등으로 확장될 가능성이 큽니다.
데이터 기반 인사이트
넥스트 빌리언의 디지털 활용 현황
- 온라인 접속률: 인도 저소득층 가구 10가구 중 9가구가 온라인 상태
- 성인 온라인 활동: 60% 이상이 온라인 활동 참여
- 하루 평균 온라인 시간: 3시간 이상
- 디지털 격차: 55%가 온라인 사기·괴롭힘 경험, 28%가 안전 문제로 서비스 이용 중단
출처: 영상 내 언급된 통계 (구체적 출처 명시는 없으나, 인도 정부 및 산업 리포트 기반으로 추정)
디지털 금융 접근성의 긍정적 영향
- 개인적 연결 증가: 넥스트 빌리언의 57%가 디지털 사용으로 개인적 연결 증가 경험
- 생활 수준 향상: 44%가 생활 수준 개선 보고
- 비즈니스 성공률: 디지털 도구를 사용하는 넥스트 빌리언 기업가들이 비사용자보다 높은 성공률 기록
다만, 전체 넥스트 빌리언 중 46%는 온라인 사용으로 인한 뚜렷한 변화가 없거나 혜택과 피해가 혼재된 경험을 하고 있습니다. 이는 단순히 온라인 접속률을 높이는 것만으로는 불충분하며, 실질적인 가치 제공이 필요함을 시사합니다.
인도 소비 시장 전망
- 2034년까지 소매 시장 성장: 폭발적 성장 예상 (구체적 수치는 영상에서 미언급)
- 2030년까지: 세계에서 가장 빠르게 성장하는 주요 경제국으로 전망
이러한 성장 궤도 속에서 데이터 공학과 AI를 통해 금융 소외 계층인 넥스트 빌리언을 포용하는 시스템 엔지니어링의 중요성이 더욱 커지고 있습니다.
핵심 인사이트
- 비정형 데이터가 새로운 신용 증명서가 된다: 전통 금융 기록이 없는 사용자라도 스마트폰 사용 패턴, 디지털 결제 이력, 앱 사용 로그 같은 비정형 데이터를 통해 신용도를 평가할 수 있습니다. 이는 금융 포용성(Financial Inclusion)을 실현하는 핵심 메커니즘입니다. 실무에서는 데이터 수집 동의 절차, 프라이버시 보호 체계, 법적 컴플라이언스를 사전에 철저히 설계해야 합니다.
- 시간 축 기반 리스크 추적이 선제적 관리를 가능하게 한다: 생존 분석(Survival Analysis)을 통해 “언제쯤 리스크가 발생할 것인가”를 예측하면, 금융 기관은 사후 대응이 아닌 사전 예방이 가능합니다. 이는 고객 이탈 예측, 재구매 시점 예측, 환자 재발 예측 등 다양한 영역에 적용할 수 있는 강력한 기법입니다. Cox 모델이나 DeepSurv 같은 기법을 학습해 두면 실무에서 즉시 활용할 수 있습니다.
- MLOps 없이는 AI 모델을 운영할 수 없다: 모델을 한 번 잘 만드는 것과 매일 안정적으로 운영하는 것은 완전히 다른 문제입니다. 데이터 드리프트, 모델 성능 저하, 시스템 장애에 자동으로 대응하는 MLOps 파이프라인이 필수적입니다. 실무에서는 모델 모니터링(MLflow, Weights & Biases), 자동 재학습(Airflow, Kubeflow), A/B 테스트, 점진적 배포(Canary Deployment) 같은 인프라를 갖춰야 합니다.
- LLM 에이전트가 금융 문서 분석을 자동화한다: 수백 페이지의 연차 보고서, 규제 문서, 계약서를 사람이 일일이 읽는 것은 비효율적입니다. LLM 에이전트를 활용하면 대용량 텍스트를 빠르게 요약·분석하고, 핵심 리스크 요인을 추출할 수 있습니다. 이는 신용 평가뿐 아니라 법률, 컨설팅, 연구 개발 등 다양한 분야에 적용 가능합니다. RAG(Retrieval-Augmented Generation) 기법과 결합하면 더욱 정확한 문서 분석이 가능합니다.
- 프라이버시와 신뢰가 기술보다 중요하다: 아무리 정교한 AI 모델이라도 사용자가 신뢰하지 않으면 무용지물입니다. 넥스트 빌리언의 28%가 안전 문제로 디지털 서비스를 중단한 경험이 있다는 사실은, 기술 개발만큼 신뢰 구축이 중요함을 보여줍니다. 엔드투엔드 암호화, 데이터 비식별화, 설명 가능한 AI(Explainable AI), 투명한 데이터 사용 정책을 통해 사용자 신뢰를 확보해야 합니다.
요약자 노트
이 영상은 어피닛의 기술 스택과 AI 아키텍처를 엔지니어 관점에서 체계적으로 분석한 훌륭한 콘텐츠입니다. 특히 비정형 데이터 활용, 생존 분석, MLOps, LLM 문서 분석이라는 네 가지 축을 균형 있게 다루고 있습니다.
다만 몇 가지 한계점도 존재합니다. 첫째, 구체적인 모델 아키텍처(피처 엔지니어링 방법론, 사용된 알고리즘, 하이퍼파라미터 튜닝 전략 등)는 상세히 다루지 않았습니다. 둘째, AI 편향성 문제에 대한 구체적인 해결 방법론(fairness metrics, bias mitigation techniques)은 언급 수준에 그쳤습니다. 셋째, 인도 외 다른 신흥 시장(아프리카, 동남아시아)으로 확장할 때의 구체적인 도전 과제는 다루지 않았습니다.
실무에 적용하실 분들은 다음 사항을 추가로 검토하시길 권장합니다. 첫째, 데이터 수집 동의 절차와 개인정보보호법 컴플라이언스를 사전에 철저히 설계하세요. 둘째, 모델 편향성을 주기적으로 모니터링하고 보정하는 체계를 갖추세요. 셋째, MLOps 파이프라인을 초기부터 구축해 모델 운영의 안정성을 확보하세요.
향후 이 분야는 단순 금융을 넘어 헬스케어(보험 인수심사, 재발 예측), 교육(학습 이탈 예측), 고용(프리랜서 신뢰도 평가) 등으로 확장될 것으로 전망됩니다. 특히 인도 정부의 디지털 공공 인프라(DPI) 프로젝트가 가속화되면서, 공공 데이터와 민간 AI 기술의 결합이 더욱 활발해질 것입니다.
관련 자료
- 어피닛(Affinit) 공식 웹사이트: 기업 정보 및 기술 스택 확인 가능
- 아프리칸 크레딧 스코어링 챌린지: Kaggle 또는 Zindi 플랫폼에서 대회 세부 내용 확인 가능
- 생존 분석(Survival Analysis) 기법: Cox Proportional Hazards 모델, Kaplan-Meier 추정, DeepSurv 논문 참고
- 인도 디지털 공공 인프라(DPI): Aadhaar, UPI, DigiLocker 관련 정부 자료
- MLOps 도구: MLflow, Weights & Biases, Kubeflow, Airflow 공식 문서
- LLM 문서 분석: RAG(Retrieval-Augmented Generation) 기법, LangChain, LlamaIndex 프레임워크
이 글은 YouTube 자동 생성 자막(자막 추출일: 2026-01-10)을 바탕으로 작성되었습니다. 영상의 핵심 내용을 정리한 것이므로, 보다 완전한 이해를 위해서는 원본 영상 시청을 권장합니다.