실제로 유튜브가 2016년에 공개한 추천 시스템 논문에 따르면, 유튜브의 추천 시스템은 다양한 특징을 결합한 딥러닝 모델이었습니다. 그전까지는 유튜브도 행렬 인수분해를 사용했는데 2016년을 전후해 딥러닝 모델을 점차 도입한 거죠. 여기에는 평가 정보 외에도 고객의 성별, 거주국, 시청 기록, 이전 노출 목록, 마지막 시청 후 경과 시간 같은 고객 정보를 비롯해 영상 길이, 조회 수, 영상 제작 시점 등 영상에 대한 다양한 정보까지 입력값으로 활용하여 최종 결과를 예측해냈습니다.
뿐만 아니라 편향을 줄이기 위해 유튜브 이외의 영상을 시청한 이력도 확인했습니다. 앞서 사용자가 유튜브에서 시청하는 영상 중 70%는 알고리즘이 추천한 영상이라고 했죠. 따라서 유튜브 영상만으로 시청 기록을 학습하면 70% 확률로 추천한 영상을 다시 학습하는 문제가 생깁니다. 이 같은 편향을 줄이기 위해 유튜브는 유튜브 밖에서 시청한 이력도 모두 활용한 거죠.
이처럼 유튜브는 편향까지 없애기 위해 수많은 정보를 종합적으로 고려했고 그 결과가 우리에게 막 시청을 마친 영상 뒤에 올라옵니다. 유튜브는 초창기에 영상을 추천하는 데 어떤 가치를 극대화할지 고민을 거듭했다고 합니다. 초기에는 조회 수를 올리는 데만 방향이 맞춰져 있었죠. 그러다 보니 크리에이터들이 유익한 영상보다는 온통 자극적인 섬네일을 만들어내는 데 치중했습니다.
영상을 클릭한 사람들이 낚인 걸 알고 즉시 빠져나와도 이미 조회 수는 올라간 뒤였죠.이후 유튜브는 사람들이 오래 시청하는 영상을 추천하도록 보상 함수를 개선했다고 밝힙니다. 뿐만 아니라 ‘이어 보기’에도 매우 높은 가중치를 부여했죠. 보상은 기존처럼 ‘많이 클릭’하는 게 아니라 ‘덜 클릭하고, 더 오래 보는’ 영상에 집중되었고, 실제로 영상의 품질을 높이는 데 많은 도움이 되었습니다.
또한 유튜브는 신선도를 무척 강조합니다. 4장에서 ‘최신 문서’의 중요성을 강조한 것처럼 새로 올라온 영상일수록 고객의 관심이 높기 때문이죠. 뉴스, 영화, 유튜브 모두 소위 ‘신상’이 매우 중요한 콘텐츠입니다. 하지만 새로운 영상은 영상에 관한 아무런 정보가 없는 콜드 스타트Cold Start 문제에 봉착합니다. 콜드 스타트는 말 그대로 차갑게 시작한다는 건데요. 새로 올라온 영상일수록 조회 수도 없고 인기가 있을지 알아낼 만한 정보가 거의 없기
때문에 추천 영상에 올라가기가 매우 어렵습니다. 올림픽에 육상 선수를 내보내야 하는데, 선수들이 달리는 모습을 보지도 못한 채 신체 조건만 보고 출전 선수를 골라내야 하는 상황과 비슷하죠. 수많은 선수 중에 누가 우사인 볼트인지 찾아낼 수 있을까요?
고객들은 무엇보다 새로운 영상을 좋아합니다. 하지만 새로울수록 정보가 부족하기 때문에 추천이 더 어려워지는 역설적인 상황에 놓입니다. 추천 시스템은 이 문제를 해결해야 하죠. 마치 점쟁이처럼 영상의 몇 가지 특징만 가지고 불특정 다수에게 추천할 수 있어야 합니다. 정말 어려운 일이죠.
영상뿐만 아니라 고객도 마찬가지입니다. 신규 고객의 관심사를 예측하기도 정말 어려운 일이죠. 넷플릭스도 초창기에 그리고 왓챠도 가입을 하면 굳이 선호하는 영화를 몇 가지 택하도록 합니다. 신규 고객의 선호도를 미리 파악하여 정교한 추천을 시작하기 위해서죠. 아무런 고객 정보가 없다면 무엇을 추천해야 좋을지 도무지 감을 잡기가 어렵습니다. 로맨스를 좋아하는 고객에게 갑자기 공포 영화를 추천하면 그 서비스에 첫인상이 좋지 않을 겁니다.
- <비전공자도 이해할 수 있는 AI 지식>, 박상길 / 정진호(그림) - 밀리의 서재 https://www.millie.co.kr/v3/bookDetail/179574931
'독서노트' 카테고리의 다른 글
독서노트(674)주말랭이 (0) | 2023.07.11 |
---|---|
독서노트(673)춘천 첫서재 (0) | 2023.07.07 |
독서노트(671)장항준 감독의 말 (0) | 2023.05.13 |
독서노트(670)아웃스탠딩 티처 (0) | 2023.05.09 |
독서노트(669)아나운서는 뭘 하는 사람입니까? (0) | 2023.05.05 |
댓글