화창한 하늘 아래

인터넷 브라우저 쿠키는 사용자에 대해 많은 것을 알려주지만 대부분은 틀린 것이다. 라는 제목의 Jonathan Lakin 글이다. Jonathan Lakin은 Intent HQ의 CEO로 Intent HQ는 소셜 데이터를 커스터마이징된 사용자 경험과 함께 수익으로 바꾸는데 도움을 주는 회사라고 한다.


주 내용은 쿠키 기반의 데이터는 과거 행동으로 미래를 예측하는데 한계가 있고, 사용자가 웹상에서 왜 그러한 행동을 하는지 맥락을 이해해야 한다는 것이다. 맥락을 이해하기 위해서는 소셜 네트워크상 개인 관심사 데이터나 위키피디아 페이지들이 연결되는 것들을 참조하면 맥락을 더 이해할 수 있다고 한다.


는 말이지만 그 정도까지 발전하여 사용자가 웹상에서 검색하거나 서핑할 때 사용자 맥락을 이해하는 알고리즘이 언제 나올지는 아직 미지수인 것 같다.


[원문]

Cookies tell you a lot about your audience, but most of it is wrong By Jonathan Lakin


[번역문]


대부분 온라인 광고나 구독자를 타케팅하는 미디어들은 인터넷 브라우저의 쿠키를 이용한다. 이것은 한 개인의 대형 프로파일이 구성될 수 있다는 것을 의미하고 모두 사용자의 행동 데이터 기반이 된다는 것을 의미한다.


괜찮을 수 있다. 그렇지 않는가? 웹상에서 사용자의 과거 행적이 미래에 발생할 행동과 비슷할 수도 있다.


그러나 그것은 꽤 그럴 듯한 가정인 것 같지만 많은 부정확성을 내포하고 있다. 당신이 온라인에서 무엇가를 찾는 이유를 생각해 봐라. 13살짜리 조카의 크리스마스 선물를 사기 위해 웹서핑을 할 수도 있고, 업무 관련 리서치할 때도 웹서핑을 할 수 있다.


행동 대 관심사


당신이 누구인지 더 정확한 모습을 얻기 위해, 온라인 상에서 당신들의 행동 이면에 숨겨진 이유를 알고리즘이 이해한다고 기대할 수 있을까? 맞다. 그러나 단지 행동 데이터만으로는 알 수 없다.


당신의 정확한 모습을 알아내는 가장 좋은 방법은 당신의 관심에 집중하는 것이다. 당신은 저스팀 비버 앨범을 웹에서 검색할 수 있다. 그러나 저스틴 비버의 음악이 당신의 관심사가 아니라는 것을 안다면, 당신이 왜 그를 검색하는지 그리고 가까운 시일내에 그를 다시는 검색하지 않을 것이라는 것을 이해할 수 있다.


결국 단지 13살짜리 조카가 이유가 아닌, 사용자 관심 기반의 웹 경험 만들어 갈 수 있게 된다.


쿠키와 필터링 버블


행동에 근거한 그리고 개인화된 쿠기 기반 웹의 부정적 영향 중 하나는 필터링 버블 효과이다.


만일 당신의 개인화된 웹 경험이 순수하게 과거 행동에만 근거한다면 과거에 봤던 것들을 웹상에서 계속 더 많이 보게 될 것이다. 즉 사용자로서 당신은 당신 자신 스스로에게 갇히게 되는 것이다. 


이러한 버블을 빠저 나오는 단 한가지 방법은 몇가지 우연 효과를 발생시키는 것이다. 이 효과는 쿠키가 주는 데이터로부터는 얻을 수 없을 것이다.


우연 효과와 관심사


당신은 '내가 알고리즘 보다 그 이상 이야'라고 말하기를 원하면서 Netflix 추천물이나 Last.fm 플레이 목록을 지켜보는 당신 자신 모습을 발견한 적이 있는가?


당신이 서너개의 침울한 다큐멘터리를 볼 수도 있다. 그렇다고 해서 가끔 가볍게 볼 수 있는 코메디물에 당신이 감사할 수 없다고 말하는 것은 아니다. 그리고 지난주에 당신이 잔잔한 일렉트릭 음악에 관심을 가졌다고 해서 때때로 하드락 음악을 들을 수 없다는 것을 의미하는 것은 아니다.


우연적 웹 경험 만들기


소셜 네트웨크은 단연코 웹상에서 시간을 가장 많이 잡아먹는 서비스이다. 각자의 관심사에 대해 방대한 양의 데이터를 공유한다. 이러한 데이터를 이용하면 우연적 웹 경험을 만들 수 있다.


당신의 관심사를 단순히 아는 것만으로는 부족하다. 여전히 필터링 버블 효과로 연결되는 한계가 있다.


인간으로써 우리는 특정 주제들 사이의 연관성에 대해 매우 복잡한 이해능력을 갖고 있다. 기계가 이러한 종류의 연관성을 만들기 위해  기계는 인간과 유사한 연관성 이해 능력을 보유할 필요가 있다.


이것은 '어네스트 헤밍웨이를 좋아하는 1,000명이 F 스콧 피처럴드를 좋아한다'라는 단순한 연관성을 넘어서 '헤밍웨이는 피처럴드와 비슷한 시대와 유사한 경향을 지닌 작가였다'라는 연관성으로 발전하는 것을 의미한다. 


이러한 종류의 데이터는 관심사간 복잡한 연관성으로 대변되는 사람들의 완벽하고 현실에 가까운 모습을 만드는데 사용될 수 있다 .메탈리카나 TLC를 동시에 좋아하거나 쇼생크 탈출, 벅스 라이프을 좋아할 수도 있는 것이 개인들의 모습이다. (메탈리카는 하드락 그룹이고, TLC는 힙합그룹이다. 사람들은 서로 상반된 것을 좋아 할 수 있다는 의미이다.)


이것의 대부분은  맥락을 이해하고 해석하는 능력이다. 어떤 사물이 어느 한순간 당신에게 갖는 의미는 시간이 흐름에 따라서 또다른 순간에서는 많이 달라질 수 있다. 맥락을 이해하는 것은 사물간 관계를 이해하는 능력을 요구한다. 이것은 소셜 네트워크가 트랜잭션보다는 관계를 이해하는 것이 더 중요한 그래픽DB 기반으로 구축되는 이유이기도 하다.


구글은 메일 부터 지도까지 그들이 소유한 자산들을 모두 사용하여 맥락에 대한 이해를 더욱 발전시키고 있다. 그리고 이러한 모습은 가장 최근 업데이트된 검색엔진인 'Hummingbird'에서 볼 수 있다.


모바일 디바이스내 아이콘을 클릭하여 구글 보이스 검색에 'Chelsea Football Club'이라고 말하면, 폰은 텍스트나 음성으로 첼시 팀의 최근 경기 스코어와 다음 경기 일정을 알려 줄 것이다. 다시 아이콘을 클릭하여  ‘where do they play?’ 라고 말하면 폰은 ‘Stamford Bridge’ 라고 말 할 것이다. 구글은 당신이 진짜 무엇을 알기 원하는지 예측하거나 사람이라면 다음으로 어떤 질문을 할 지 연결 관계를 알아내기 위해 방대한 데이터를 사용한다. 


개발자들에게 또 다른 접근방식은 위키피디아 이다. 위키피디아는 사람들이 큐레이션(이미 존재하는 막대한 정보를 분류하고 유용한 정보를 골라내어 수집하고 다른사람에게 배포하는 행위)한 가장 큰 데이터베이스로서 지금까지 만들어진 정보 중 가장 신뢰할 수 있다. 


위키피디아는 사람이 이해하는 방식과 같은 알고리즘를 구현하는데 이상적이다. 


위키피디아 페이지들이 서로 다른 페이지에 연결되고 참조되는 방식을 들어다 보면, 주제들 연관성에 대한 사람들이 이해하는 방식의 거의 완벽한 사본을 얻을 수 있다.


이러한 종류의 데이터는 소셜 네트워크상에서 공유되는 개인 관심사 데이터와 결합될 때 쿠키 기반 데이터가 우리에게 줄 수 있는 웹 경험을 넘어서 더 많은 정보를 주는데 사용 될 수 있다.



반응형