본문 바로가기 메뉴 바로가기

kakao 블로그 본문

맞춤형 추천뉴스 루빅스를 소개합니다

2015. 9. 14. 10:31

이용자 여러분 안녕하세요. 다음뉴스에 대해 몇가지 안내 말씀드립니다. 하루 수만건의 뉴스가 이용자 여러분들께 보여지기까지 어떤 과정을 거치는지, 그렇게 제공된 뉴스는 분야별로 얼마만큼 읽히고 주요 소비특성은 무엇인지에 대해 간략히 말씀드리고 보다 유익한 뉴스서비스를 위한 고민을 함께 나누고자 합니다.

더불어 다음뉴스의 제공방식과 배치에 관한 외부 보고서에 대해서도 궁금한점이 많으셨을줄 압니다. 사실과 다른 부분에 대해 별도 자료로 간략히 설명드립니다.

뉴스서비스, 이렇게 하고 있습니다
기사가 들어오고 배치되기 까지

다음뉴스에는 150여개 매체에서 하루 3만건의 기사가 실시간으로 들어옵니다. 많을때는 새로고침 한번 할때마다 20~30건씩 새기사가 쌓여요. 이때 클러스터링 기술의 도움을 받습니다. 클러스터링은 같은 키워드별로 기사를 묶어 보여주기 때문에 지금 중요한 주제와 정보량을 한눈에 알 수 있어요.

예전에는 클러스터 분석 후 에디터들이 정치, 경제, 사회 카테고리별로 분담해서 편집원칙에 따라 기사를 메인에 직접 배치했어요. 그런데 기사가 점점 늘어납니다. “하루 수만건 기사를 일일이 판단하고 관심사가 다른 전국민이 같은 뉴스만을 소비하는게 여전히 좋은걸까? 모바일 이용자들은 SNS등으로 한층 자기주도적인 정보소비를 하고 있는것 같은데? 우리는 획일적인 배치로 모바일 세대의 뉴미디어 트렌드를 놓치고 있는건 아닐까?” 하는 의문을 갖게 됐어요.

모바일 소셜시대에 맞는 뉴스배치 방법은 무엇일지, 기술 기업다운 혁신은 무엇일지 고민도 많았습니다. 그 결과 실시간 이용자 반응형 콘텐츠 추천시스템인 루빅스를 개발했어요. 수많은 테스트와 업그레이드를 거쳐 지금은(2015년 6월부터) 1) 클러스터 분석 후 2)문서 간 중복/어뷰징 필터링을 적용한 뒤 3) 서비스원칙에 반하는 문서를 제외한 기사들이 루빅스 풀에 들어갑니다. 그 후에는 루빅스가 첫화면에 기사를 자동배치 합니다

루빅스를 좀 더 자세히 설명드립니다

1) 루빅스는 메인 뉴스의 이용자 반응을 실시간으로 측정합니다. 2) 측정은 크게 전체 사용자 반응과 성연령별 그룹에 따른 반응으로 나뉩니다. 3) 뉴스의 중요한 속성 두 가지 - 사회적 트렌드와 개인적 관심사- 를 결합한 추천을 위해서입니다. 4) 두 가지 반응은 실시간으로 기계가 학습합니다. 5) 그래서 뉴스를 자주 읽으시면 맞춤형 뉴스가 더 많이 배치되고 6) 처음 방문하여 읽은 이력이 없는 분들께는 전체 이용자 경험을 분석해 가장 많이 본 기사가 배치됩니다.

그런데 아무리 자동화가 좋아도 모든것을 다 자동화 할 수는 없습니다. 전 국민이 그시각에 꼭 알아야할 뉴스도 있기 때문입니다. 대부분의 언론사가 [속보]로 전하는 긴급뉴스라든지, 대형사고나 재난재해, 기상특보, 스포츠중계, 경기결과처럼 실시간성이 중요한 뉴스는 전체 이용자에게 배치됩니다. 이건 아직 기계가 대신할 수 없는 영역이에요.

그래서 첫화면은 사람마다 달라요

루빅스가 적용된 첫화면은 이렇습니다. 친구들과 비교해보세요. 성별과 연령대가 다를 수록, 관심사가 다를수록 서로 다른 기사들이 배치됩니다. 내가 만약 A, B, C 기사를 봤다면 나처럼 A, B, C 기사를 본 분들이 읽은 다른 기사들을 추천해드려요.

루빅스로 좋아진 점!

첫화면에 소개되는 기사 수가 많아졌어요
이미 본 기사는 새 기사로 바로바로 바뀌고 이용자별로 각기 다른 기사를 배치하니 첫화면에 소개되는 기사가 루빅스 적용전 일평균 257건에서 839건으로 226% 늘었습니다.

첫화면에 소개되는 기사 종류도 다양해졌어요
IT, 국제, 생활문화 등 이슈 중심 기사 소비에서 소외되기 쉬운 분야의 기사들도, 기계가 관심분야로 인식하면 주요하게 배치합니다. 그래서 섹션별 다양성이 풍부해졌습니다. 루빅스 적용전보다 IT섹션과 문화생활 섹션은 각각 365%, 660% 증가했습니다.

첫화면에서 이용자들이 뉴스를 더 많이 읽어요
더 많은 기사를 더 다양하게 자동 배치하면서 첫 화면 뉴스영역의 클릭은 109%, 이용자 수는 42%, 기사를 읽는 시간도 65% 증가했습니다. 루빅스 배치가 이용자들의 관심사에 조금 더 가깝고 유익했다는 결과가 아닐까 생각합니다.

‘악플’에도 조심스러운 희망이?
부부싸움, 데이트갈등 같은 기사에는 남/녀의 편가르기와 악플이 종종 보이는데요. 같은 기사인데도 해당 주제에 대한 이해도나 관심도가 높은 이용자들에게 주로 노출되었을때 기사에 대한 댓글이 보다 협력적이고 따뜻한 분위기를 볼 수 있었습니다.

루빅스, 이런 점은 더 노력하겠습니다

클릭 많은 기사 = 좋은 기사?
관심사 기반의 기사를 추출하기 위해 실시간 사용자 반응을 주로 활용하지만, 제목이 선정적이거나 제목에 비해 상대적으로 내용이 ‘부실’할 경우 이용자들은 예민하게 패턴을 인식하여 나중에는 그런 기사를 덜 클릭하는 모습을 확인할 수 있었습니다. 제목과 내용이 일치하며 정보 가치가 높을때 체류 시간과 추가 클릭이 훨씬 많이 일어나는 것을 보면서 이러한 요소들을 machine learning에 더 반영할 계획입니다.

PC는 모바일보다 추천에 제약이 많아요
PC뉴스는 모바일 보다 낮은 단계로 루빅스 알고리즘을 적용하고 있습니다. PC는 로그인 비율이 낮고 공용PC도 많기 때문에 지금은 루빅스풀에 있는 기사를 랜덤으로 자동 배치만 하고 있습니다. 모바일 뉴스처럼 machine learning에 따른 기사 교체나 관심사별 추천은 연구 중이니 조금만 더 기다려주세요.

‘악플’도 스마트하게 개선할 필요가 있어요
루빅스 적용 후 일부 관심사 기반의 기사에서 댓글이 순화되는 경향을 발견했어요. 아직은 조심스러운 예측이지만 저희는 해당 기사에 관심이 많으면 이해도가 높고, 내용에 대한 이해도가 높으면 악플의 가능성이 줄어든다는 가설을 세우게 되었습니다. 이 가설을 더욱 정교하게 실험하고 검증해서 좋은 결과물을 보여드리겠습니다.

다음뉴스 서비스를 만드는 사람들

포털뉴스는 대량의 데이터를 실시간으로 다뤄야 하기때문에 생각보다 다양한 분야의 전문가들이 함께 만듭니다. 기사 배치도 에디터만의 업무가 아니라 클러스터링, 중복인식/필터링, 루빅스알고리즘 적용에서 엔지니어의 판단과 결정이 요구돼요. 엔지니어는 기술적 완결성과 혁신성에 무게를 두고 에디터는 뉴스의 고유한 특성과 책임성을 고민합니다. 이용자 뉴스 소비패턴이 기사 배치를 결정하고 맞춤 콘텐츠가 실시간으로 잘 보여질 수 있도록 두 직군이 건강한 토론을 거듭하며 알고리즘을 업그레이드 해나가고 있어요.

뉴스 에디터 : 속보/사건사고/재난재해/기상특보/스포츠생중계등 실시간 이벤트를 주7일 주야간 당직체제로 모니터링 하며 루빅스 기본 풀을 관리합니다. 당직이 아닌 시간에는 개발자와 함께 루빅스 알고리즘을 기획하고 함께 만들어요 ^.^
응용분석엔지니어 : 루빅스 기본 알고리즘을 설계, 개발하고 성연령별 그룹 맞춤 로직과 실시간 사용자 반응 측정을 상시 테스트 & 적용합니다. 루빅스개발로 응용분석 엔지니어가 대폭 확충되어 다음뉴스 관련 인원의 약 70%를 차지하고 있어요 (그래도 모자라요 T.T 상시채용중!! ^^)

뉴스서비스 데이터를 공개하겠습니다.
사회적 관심에 책임을 다하기 위해

기사 송고 현황, 뉴스 배치 통계, 섹션별 이용자 소비패턴, 성연령별 이용자 소비분포 등 뉴스 서비스 관련 주요 데이터를 공개하겠습니다. 기사를 생산하는 언론사에도 의미있는 데이터가 될 수 있도록 노력하고 이용자에게 더욱 유익한 뉴스서비스를 제공할 방안을 함께 고민하고 연구하겠습니다. 데이터 분석의 주기와 상세항목은 추가 검토를 거쳐 구체화하겠습니다. 다음은 주요 데이터에 대한 예시입니다. (2015년 9월 기준)

뉴스 서비스 데이터 (1)

기사 송고 현황
1월부터 8월까지 월 평균 872,681건의 기사가 송고되었습니다. 더 구체적으로 보면 8월 한달은 일평균 27,000건의 기사가 송고되었습니다. 그 중 뉴스가 13,500건, 연예가 8,200건, 스포츠 3,400건, 라이프 530여건을 차지했습니다.

뉴스 서비스 데이터 (2)

뉴스 배치 통계
다음뉴스는 모바일 첫화면에 하루 총 800여건의 기사를 자동배치합니다.
이렇게 배치되는 기사의 분야와 분량을 정기적으로 리포팅하고 첫화면에 배치되었던 기사는 뉴스 통계 페이지를 통해 직접 확인하실수 있도록 하겠습니다.

뉴스 서비스 데이터 (3)

섹션별 이용자 소비 패턴
8월 시사 뉴스에서는 사회 / 정치 / 국제, 연예 뉴스는 스타 / 방송, 스포츠 뉴스는 야구와 해외야구 카테고리의 뉴스 소비가 활발했다는 것을 알 수 있습니다.

뉴스 서비스 데이터 (4)

성연령별 이용자 분포
모바일 뉴스 이용자는 남성이 더 많고, 연령별로는 30대 이용자가 가장 많습니다.

뉴스 서비스 데이터 (5)

성별 이용자 소비 분포
사회 뉴스는 성별 상관없이 선호도가 높고, 경제와 IT 뉴스는 남성 선호도가 더 높은 것을 알 수 있습니다.

이상으로 다음뉴스에 관한 안내말씀을 마칩니다. 다음뉴스에 보내주시는 이용자 여러분의 성원에 깊이 감사드립니다. 더욱 공정하고 유익한 뉴스서비스로 찾아뵙겠습니다.

댓글 갯수
이전 댓글 더보기
서씨 2021.04.15 06:54

요즘 다음은 조선일보 하수인이냐 예전에는 안그랬는데 개판이구만

정미진 2021.04.21 14:23

뭘 걸러 준다는 거임
다른 기사들은 그럼 폼으로 기사쓰남
말도 안되는 알고리즘 시간대 찾고 있네
지금 다음카톡은 아주 조중동이 판친다
알고리즘이 조중동에게만 걸리냐?
엿같은 소리하고 앉았네

안광호 2021.04.21 22:01

정치 편향성이 너무 심한거 아님????ㅎㅎ

너무 깊게 개입하는거 같소만...

루빅스 2021.04.22 19:58

다 필요 없고 PC에서 언론사 선택하는 방법좀 알려주세요. 조중동좀 그만 봅시다.

AI싫다 2021.04.26 12:17

클릭하지도 않는 조중동, 극우 인테넷 언론사 뉴스만 추천하는 다음 AI싫다.
신문도 보기 싫으면 넣지말라 요구할 수 있고, TV도 보기 싫으면 채널을 돌릴 수 있는데.
다음 뉴스는 왜 선택권이 없는가?
독자가 취소든 구독이든 선택할 수 있는 버튼을 만들어라.
다음이 공산주의도 아니고 어떻게 일방통행 주입식 뉴스를 강요하는가?

헛소리 2021.04.27 13:35

루빅스의 딥러닝은 일베 게시판에서 했냐?
되도않는 변명짓 하고 자빠졌다..

겨울나무 2021.05.01 12:34

10개 기사 중 8~9개가 극우부터 보수 편향 기사라면, ai가 문제가 아니라 그걸 계속 유지하면서도 전혀 문제의식을 못느끼는 해당 포털이 문제..다음도 쓰레기 포털 나부랭이에 불과해진 것인가요?
다음을 20년 가까이 이용해왔는데, 정말 떠나고 싶어서 항의할 곳을 찾다찾다 여기까지 왔습니다.
적어도 내가 생각했던 다음이라면, 우리 사회의 미래를 조금이라도 생각할 것이라 기대했는데...
아쉬움이나 안타까움을 넘어 이제 슬픔과 두려움이 앞서는군요.
더 이상 기대할 이유도 시간도 남아 있지 않은 구독자인 제 자신이 처량하기도 하구요.
일개 이용자야 우스울 수 있지만, 저 같은 사람이 한 둘이 아니라는 걸 부디 더 늦기 전에 아시기 바랍니다.
ai가 모든 것을 해 줄 수도 없지만, 모든 것을 가려주지도 않습니다.
어떤 것 뒤에도 숨지 말고, 당당히 정론과 비판 역할을 해주시기 바랍니다.
그 때 다시 돌아 오겠습니다, 너무 늦지 않길 바라며...

컴삿갓 2021.05.03 22:17

조선일보 출신이 뉴스 관련 고위 임원으로 왔다는 소문이 있던데 그래서 그런지 보기 싫은 조중동만 추천에 올려주네요.
인공지능 인공지능 하면서 책임 회피하려는 속셈인데 인공지능은 귀사의 프로그래머가 만드는거 아닙니까.
나름 객관적이라고 주장하지만 결론은 태극기 뉴스밖에 없네요.

새까만 2021.05.26 00:40

맞춤형 기사 추천이란 뜻이 맞춤형 거부감 이라는 뜻인가보죠? 언제부터 다음이 온통 조중동 기사만 보이는건지, 뉴스경제사화문화 할 것 없이 모두 극우 보수 편향이네요. 하다하다 조선일보출신 기자 부고기사까지 포털에서 봐야합니까. 포털에 올릴 기사가 그리 없나요? 아니면 제 또래나이성별 집단은 보수언론사 직원 부고기사를 좋아한답니까.
우리가 포털인데, 일개 사용자따위 보여주는대로 닥치고 보라는 듯 선택사항조차 하나 없이 온통 극우기사로 도배를 하니, 십년이상 애용하던 포털이 이제 접속만하면 거부감과 불쾌감을 참기 힘든 상황입니다.
뉴스화면을 개인별 편집할 수 있도록 언론사 선택권을 주던가, 하다못해 기사제목 앞에 언론사 이름이라도 넣어서 피해갈수라도 있게 해주길 바랍니다. 정말 오래도록 사용하던 업무이메일마저 포기하고 외국 사이트로 옮겨가기 전에 말입니다.....

웃기는 다음 2021.06.07 14:48

맞춤형? 난 쓰레기같은 조, 중, 동 등 토착왜구 기사는 읽기 싫은데, 주구장창 그것만 메인에 걸리는구만 뭔소리하는거야?
다음. 양심이 있어봐라. 너네는 그냥 돈에 영혼을 팔았어.

거짓말이아니면쓰레기 2021.06.11 15:04

만약 너희 AI라는게 정말 악의 없이 조작 없이 만들어지는데 지금 이따위로 뉴스가 배치되는거면
너희 다음은 뉴스 배치 편집권을 갖어선 안되는 집단이야
네이버처럼 유저선택으로 맞기고 비로그인시 기사만 AI 런닝을 통해 배치해
제목 낚시질 기사나 올리는 AI에 이름갖은거 붙이지만 쓰레기 말고 다른말로 부를 이유 없다
이 무능한 것들아

쓰레기다음 2021.06.11 15:07

니들이 이렇게 구구절절 설명을 해야한다는게 뭔 의미인지 알아?
쓰레기란 의미야 지금 너희의 있는지 조차 의심스러운 그 AI라는게 말이야
그나마 네이버보다 낫다 생각해서 그동안 메인은 다음으로 20년을 써왔는데 최근의 너희는
정말 구제불능의 쓰레기야

산야크 2021.06.13 13:52

뭔 소리인지 그냥 편집자가. 있다고. 이야기 하셔요. 언론사 제외하더라도 계속 언론사 뜸. 언론사가 이 시스템 악용하는 것처럼 이야기 하는데. 악용을 방치하는것도 죄임

kakao 2021.06.15 16:02

비선호 매체(조선, 동안, 중앙..)를 제외할 수 있는 기능이 있나요?

최윤희 2021.06.16 09:33

국빈방문기사 보고 싶어 들어왔는데 검색해야보이는건 뭐죠?

쓰레기다음 2021.06.18 14:57

이런 무능한 쓰레기 만드느라 애쎴네
메인 뉴스 개판이라고 하니 이런 쓰레기 같은 있는지 의심조차 되는 쓰레기 만들어 놓고
문의하면 AI 탓하며 도망가기 바쁜 쓰레기 같은 다음

도대체 2021.06.18 15:33

인공지능 알고리즘 핑계되면서 메인 뉴스창을 엉망 진창으로 만드는 이유가 도대체 ?
의도가 너무 뻔히 보인다
AI ???
다음앱 폰들에서 삭제 했습니다

다음 뉴스 개정 요청! 2021.06.22 18:24

"많이 본 뉴스"와 "추천 뉴스"를 빼주시면 좋겠습니다. 차라라 뉴스가 아닌 "현시간 토픽" 카테고리를 1위에서 10위까지 주고 그 토픽을 클릭해서 들어가면 관련 기사가 언론사별로 배치되는 형태에서 사용자가 언론사와 기사를 선택해서 볼 수 있게 해주면 좋겠습니다.
이유는 다음과 같습니다.
1. '많이 본 뉴스'는 선정적이고 자극적인 제목 만을 앞세운 가짜 뉴스, 불성실한 뉴스, 소설 또는 수필같은 뉴스, 부실한 쓰레기 같은 뉴스들인 경우가 매우 많습니다. 이로 인해 소중한 시간을 허비하여 굉장히 허탈하고 불쾌한 경험을 많이 하고 있습니다. 다음 사용자의 더 나은 경험을 제공하기 위해 꼭 부탁 드립니다.
2. '추천 뉴스'는 어떤 알고리즘이나 의도에 따라 추천이 되는 지 모르겠으나 만약 이 전에 사용자가 클릭한 기사와 연관되어 나오도록 설계된 것이라면 1에서 이미 짜증난 데에 추가로 더 짜증을 유발하는 상황이 됩니다. 왜냐면 1에서 이미 쓰레기 같은 언론이나 뉴스에 당했는데 또 당하는 느낌이거든요. 그러므로 추천뉴스도 필요 없고 그냥 사용자가 뉴스를 이용하는 그 시점에서 기사로 많이 나오거나 사람들이 관심을 갖고 있는 토픽을 골라서 들어가면 그와 관련된 기사를 "언론사 별로 선택!!!" 해서 볼 수 있도록 반드시 선택!!! 해서 볼 수 있도록 해주시면 감사하겠습니다.

기가차네 2021.06.26 08:20

루빅스 같은 소리하네 쓰레기 조중동이 메인에 도배된게
니네 조서일보사장인지 뭔지 부임하고 나서부턴데 다카오 이따위로 할레

이상진 2021.08.11 14:13

이십여년 전 네이버가 수구일베들의 놀이터가 되다시피해서 다음으로 옮겨와 여태까지 항상 브라우저 기본홈페이지를 다음으로 했는데 최근에 다음은 죄다 극우보수 언론 기사들로만 도배가 되고 있다. 한겨레도 경향도 오마이뉴스도 있지만 아주 가뭄에 콩나듯 드물고 머니투데이 그룹쪽 언론 아니면 조중동, 세계, 국민, 문화일보 등의 기사가 대다수다. 이 땅에 보수와 진보 성향 사람 수는 비슷한 수준인데 언론기사 배치는 왜 이리 편향이 심한가? 이게 단순히 AI 알고리즘때문이다라고 치부할 일인가? 이게 공정이란 말인가? 다음은 기사배치를 공정히 하기 바란다. 그렇지 않다면 수많은 사람들이 다음을 미련없이 버릴 것이다.

TOP