본문 바로가기 메뉴 바로가기

kakao 블로그 본문

맞춤형 추천뉴스 루빅스를 소개합니다

2015.09.14 10:31

이용자 여러분 안녕하세요. 다음뉴스에 대해 몇가지 안내 말씀드립니다. 하루 수만건의 뉴스가 이용자 여러분들께 보여지기까지 어떤 과정을 거치는지, 그렇게 제공된 뉴스는 분야별로 얼마만큼 읽히고 주요 소비특성은 무엇인지에 대해 간략히 말씀드리고 보다 유익한 뉴스서비스를 위한 고민을 함께 나누고자 합니다.

더불어 다음뉴스의 제공방식과 배치에 관한 외부 보고서에 대해서도 궁금한점이 많으셨을줄 압니다. 사실과 다른 부분에 대해 별도 자료로 간략히 설명드립니다.

뉴스서비스, 이렇게 하고 있습니다
기사가 들어오고 배치되기 까지

다음뉴스에는 150여개 매체에서 하루 3만건의 기사가 실시간으로 들어옵니다. 많을때는 새로고침 한번 할때마다 20~30건씩 새기사가 쌓여요. 이때 클러스터링 기술의 도움을 받습니다. 클러스터링은 같은 키워드별로 기사를 묶어 보여주기 때문에 지금 중요한 주제와 정보량을 한눈에 알 수 있어요.

예전에는 클러스터 분석 후 에디터들이 정치, 경제, 사회 카테고리별로 분담해서 편집원칙에 따라 기사를 메인에 직접 배치했어요. 그런데 기사가 점점 늘어납니다. “하루 수만건 기사를 일일이 판단하고 관심사가 다른 전국민이 같은 뉴스만을 소비하는게 여전히 좋은걸까? 모바일 이용자들은 SNS등으로 한층 자기주도적인 정보소비를 하고 있는것 같은데? 우리는 획일적인 배치로 모바일 세대의 뉴미디어 트렌드를 놓치고 있는건 아닐까?” 하는 의문을 갖게 됐어요.

모바일 소셜시대에 맞는 뉴스배치 방법은 무엇일지, 기술 기업다운 혁신은 무엇일지 고민도 많았습니다. 그 결과 실시간 이용자 반응형 콘텐츠 추천시스템인 루빅스를 개발했어요. 수많은 테스트와 업그레이드를 거쳐 지금은(2015년 6월부터) 1) 클러스터 분석 후 2)문서 간 중복/어뷰징 필터링을 적용한 뒤 3) 서비스원칙에 반하는 문서를 제외한 기사들이 루빅스 풀에 들어갑니다. 그 후에는 루빅스가 첫화면에 기사를 자동배치 합니다

루빅스를 좀 더 자세히 설명드립니다

1) 루빅스는 메인 뉴스의 이용자 반응을 실시간으로 측정합니다. 2) 측정은 크게 전체 사용자 반응과 성연령별 그룹에 따른 반응으로 나뉩니다. 3) 뉴스의 중요한 속성 두 가지 - 사회적 트렌드와 개인적 관심사- 를 결합한 추천을 위해서입니다. 4) 두 가지 반응은 실시간으로 기계가 학습합니다. 5) 그래서 뉴스를 자주 읽으시면 맞춤형 뉴스가 더 많이 배치되고 6) 처음 방문하여 읽은 이력이 없는 분들께는 전체 이용자 경험을 분석해 가장 많이 본 기사가 배치됩니다.

그런데 아무리 자동화가 좋아도 모든것을 다 자동화 할 수는 없습니다. 전 국민이 그시각에 꼭 알아야할 뉴스도 있기 때문입니다. 대부분의 언론사가 [속보]로 전하는 긴급뉴스라든지, 대형사고나 재난재해, 기상특보, 스포츠중계, 경기결과처럼 실시간성이 중요한 뉴스는 전체 이용자에게 배치됩니다. 이건 아직 기계가 대신할 수 없는 영역이에요.

그래서 첫화면은 사람마다 달라요

루빅스가 적용된 첫화면은 이렇습니다. 친구들과 비교해보세요. 성별과 연령대가 다를 수록, 관심사가 다를수록 서로 다른 기사들이 배치됩니다. 내가 만약 A, B, C 기사를 봤다면 나처럼 A, B, C 기사를 본 분들이 읽은 다른 기사들을 추천해드려요.

루빅스로 좋아진 점!

첫화면에 소개되는 기사 수가 많아졌어요
이미 본 기사는 새 기사로 바로바로 바뀌고 이용자별로 각기 다른 기사를 배치하니 첫화면에 소개되는 기사가 루빅스 적용전 일평균 257건에서 839건으로 226% 늘었습니다.

첫화면에 소개되는 기사 종류도 다양해졌어요
IT, 국제, 생활문화 등 이슈 중심 기사 소비에서 소외되기 쉬운 분야의 기사들도, 기계가 관심분야로 인식하면 주요하게 배치합니다. 그래서 섹션별 다양성이 풍부해졌습니다. 루빅스 적용전보다 IT섹션과 문화생활 섹션은 각각 365%, 660% 증가했습니다.

첫화면에서 이용자들이 뉴스를 더 많이 읽어요
더 많은 기사를 더 다양하게 자동 배치하면서 첫 화면 뉴스영역의 클릭은 109%, 이용자 수는 42%, 기사를 읽는 시간도 65% 증가했습니다. 루빅스 배치가 이용자들의 관심사에 조금 더 가깝고 유익했다는 결과가 아닐까 생각합니다.

‘악플’에도 조심스러운 희망이?
부부싸움, 데이트갈등 같은 기사에는 남/녀의 편가르기와 악플이 종종 보이는데요. 같은 기사인데도 해당 주제에 대한 이해도나 관심도가 높은 이용자들에게 주로 노출되었을때 기사에 대한 댓글이 보다 협력적이고 따뜻한 분위기를 볼 수 있었습니다.

루빅스, 이런 점은 더 노력하겠습니다

클릭 많은 기사 = 좋은 기사?
관심사 기반의 기사를 추출하기 위해 실시간 사용자 반응을 주로 활용하지만, 제목이 선정적이거나 제목에 비해 상대적으로 내용이 ‘부실’할 경우 이용자들은 예민하게 패턴을 인식하여 나중에는 그런 기사를 덜 클릭하는 모습을 확인할 수 있었습니다. 제목과 내용이 일치하며 정보 가치가 높을때 체류 시간과 추가 클릭이 훨씬 많이 일어나는 것을 보면서 이러한 요소들을 machine learning에 더 반영할 계획입니다.

PC는 모바일보다 추천에 제약이 많아요
PC뉴스는 모바일 보다 낮은 단계로 루빅스 알고리즘을 적용하고 있습니다. PC는 로그인 비율이 낮고 공용PC도 많기 때문에 지금은 루빅스풀에 있는 기사를 랜덤으로 자동 배치만 하고 있습니다. 모바일 뉴스처럼 machine learning에 따른 기사 교체나 관심사별 추천은 연구 중이니 조금만 더 기다려주세요.

‘악플’도 스마트하게 개선할 필요가 있어요
루빅스 적용 후 일부 관심사 기반의 기사에서 댓글이 순화되는 경향을 발견했어요. 아직은 조심스러운 예측이지만 저희는 해당 기사에 관심이 많으면 이해도가 높고, 내용에 대한 이해도가 높으면 악플의 가능성이 줄어든다는 가설을 세우게 되었습니다. 이 가설을 더욱 정교하게 실험하고 검증해서 좋은 결과물을 보여드리겠습니다.

다음뉴스 서비스를 만드는 사람들

포털뉴스는 대량의 데이터를 실시간으로 다뤄야 하기때문에 생각보다 다양한 분야의 전문가들이 함께 만듭니다. 기사 배치도 에디터만의 업무가 아니라 클러스터링, 중복인식/필터링, 루빅스알고리즘 적용에서 엔지니어의 판단과 결정이 요구돼요. 엔지니어는 기술적 완결성과 혁신성에 무게를 두고 에디터는 뉴스의 고유한 특성과 책임성을 고민합니다. 이용자 뉴스 소비패턴이 기사 배치를 결정하고 맞춤 콘텐츠가 실시간으로 잘 보여질 수 있도록 두 직군이 건강한 토론을 거듭하며 알고리즘을 업그레이드 해나가고 있어요.

뉴스 에디터 : 속보/사건사고/재난재해/기상특보/스포츠생중계등 실시간 이벤트를 주7일 주야간 당직체제로 모니터링 하며 루빅스 기본 풀을 관리합니다. 당직이 아닌 시간에는 개발자와 함께 루빅스 알고리즘을 기획하고 함께 만들어요 ^.^
응용분석엔지니어 : 루빅스 기본 알고리즘을 설계, 개발하고 성연령별 그룹 맞춤 로직과 실시간 사용자 반응 측정을 상시 테스트 & 적용합니다. 루빅스개발로 응용분석 엔지니어가 대폭 확충되어 다음뉴스 관련 인원의 약 70%를 차지하고 있어요 (그래도 모자라요 T.T 상시채용중!! ^^)

뉴스서비스 데이터를 공개하겠습니다.
사회적 관심에 책임을 다하기 위해

기사 송고 현황, 뉴스 배치 통계, 섹션별 이용자 소비패턴, 성연령별 이용자 소비분포 등 뉴스 서비스 관련 주요 데이터를 공개하겠습니다. 기사를 생산하는 언론사에도 의미있는 데이터가 될 수 있도록 노력하고 이용자에게 더욱 유익한 뉴스서비스를 제공할 방안을 함께 고민하고 연구하겠습니다. 데이터 분석의 주기와 상세항목은 추가 검토를 거쳐 구체화하겠습니다. 다음은 주요 데이터에 대한 예시입니다. (2015년 9월 기준)

뉴스 서비스 데이터 (1)

기사 송고 현황
1월부터 8월까지 월 평균 872,681건의 기사가 송고되었습니다. 더 구체적으로 보면 8월 한달은 일평균 27,000건의 기사가 송고되었습니다. 그 중 뉴스가 13,500건, 연예가 8,200건, 스포츠 3,400건, 라이프 530여건을 차지했습니다.

뉴스 서비스 데이터 (2)

뉴스 배치 통계
다음뉴스는 모바일 첫화면에 하루 총 800여건의 기사를 자동배치합니다.
이렇게 배치되는 기사의 분야와 분량을 정기적으로 리포팅하고 첫화면에 배치되었던 기사는 뉴스 통계 페이지를 통해 직접 확인하실수 있도록 하겠습니다.

뉴스 서비스 데이터 (3)

섹션별 이용자 소비 패턴
8월 시사 뉴스에서는 사회 / 정치 / 국제, 연예 뉴스는 스타 / 방송, 스포츠 뉴스는 야구와 해외야구 카테고리의 뉴스 소비가 활발했다는 것을 알 수 있습니다.

뉴스 서비스 데이터 (4)

성연령별 이용자 분포
모바일 뉴스 이용자는 남성이 더 많고, 연령별로는 30대 이용자가 가장 많습니다.

뉴스 서비스 데이터 (5)

성별 이용자 소비 분포
사회 뉴스는 성별 상관없이 선호도가 높고, 경제와 IT 뉴스는 남성 선호도가 더 높은 것을 알 수 있습니다.

이상으로 다음뉴스에 관한 안내말씀을 마칩니다. 다음뉴스에 보내주시는 이용자 여러분의 성원에 깊이 감사드립니다. 더욱 공정하고 유익한 뉴스서비스로 찾아뵙겠습니다.

댓글 갯수7
TOP