본문 바로가기 메뉴 바로가기

kakao 블로그 본문

다음 맞춤법 검사기와 관련된 논란에 대해 설명드립니다.

2016.08.17 15:48

다음 맞춤법 검사기와 관련된 논란에 대해 설명드리고자 합니다.

지난 15일 한글 맞춤법 분야에서 오랫동안 헌신해오신 부산대 권혁철 교수님께서 개인 SNS에 저희 맞춤법 검사기가 권 교수님이 개발한 서비스를 역공학으로 분석해 구축했으며 맞춤법 API 공개에 대해서도 문제가 있다는 지적을 하셨습니다.

저희는 17일 직접 권 교수님께 전화를 드려, 다음 맞춤법 검사기는 자체 구축한 것이고, 권 교수님의 맞춤법 검사기 웹 페이지를 역공학(리버스 엔지니어링)으로 분석해 서비스를 개발한 것이 아니라는 점을 설명드렸습니다. 권 교수님은 이에 대해서 양쪽 서비스를 비교해보면 서로의 해석이 다를 수 있다고 말씀하셨습니다.

아울러 저희는 API를 공개할 경우 한글 맞춤법 검사기 개발에 차질을 빚을 수 있다는 권 교수님의 우려를 받아들여 다음 맞춤법 검사기 API 공개를 중단하겠다고 말씀드렸습니다. 그리고 한글 맞춤법 검사기의 품질 향상을 위해 같이 협력하기로 의견을 모았습니다.

참고로 카카오가 맞춤법 검사기를 구축한 과정에 대해 덧붙이고자 합니다.

카카오는 오랜 기간 제공해온 검색 서비스를 통해 이용자들의 다양한 검색어(쿼리) 입력을 분석해 왔습니다. 이용자가 검색 서비스를 사용하는 과정에서 오타로 잘못된 문장을 입력하더라도 원하는 결괏값을 찾을 수 있도록 하는 데 맞춤법 검사가 중요한 역할을 하고 있습니다.

카카오는 맞춤법 검사가 다양한 서비스들에 활용되는 만큼 관련 기술 확보를 위해 지난 2014년 7월부터 자체적으로 맞춤법 검사기 개발을 진행해 왔으며, 현재 다음검색, 어학사전, 브런치에 활용하고 있습니다.

아울러 카카오는 개방과 공유라는 서비스 철학을 기반으로 누구나 쉽고 편리하게 활용할 수 있도록 오픈 API 서비스를 꾸준히 확대해왔습니다. (카카오의 오픈 API)

지난달 맞춤법 검사기 API를 공개한 이후, 3rd party 개발자들이 웹 에디터 등의 서비스에 활용할 수 있게 되어 고맙다는 뜻을 전해오기도 했습니다. 하지만 오랫동안 맞춤법 검사기 개발에 헌신해온 권 교수님의 우려에 따라 맞춤법 검사기에 대해서는 예외적으로 API 공개를 중단하기로 결정했습니다.

이번 결정으로 카카오의 근본적인 오픈 API 철학이 바뀌는 것은 아니며, 앞으로 오픈 API에 대한 기술 기반 혁신을 지지하는 많은 분들과 함께 더 깊이 고민할 수 있는 계기로 삼도록 하겠습니다.

[다음 맞춤법 검사기 데이터 구축 방식]

한글 맞춤법 규정은 공개된 내용으로 누구나 쉽게 확인할 수 있으며 저희 서비스 역시 이를 토대로 몇 년간 자체 작업해 온 결과물입니다. 저희가 어떻게 맞춤법 유형을 파악했고 데이터를 구축했는지 공개하고자 합니다.

저희는 아래와 같은 다양한 데이터를 활용하여 맞춤법 오류 유형을 파악하고 교정 데이터를 자체적으로 구축하였습니다.

- 형태소 분석기(자체 개발) 사전에 등재된 모든 엔트리를 전수 검사하여, 오타와 정타를 분리
- 형태소 분석 실패 어절 오타 여부 확인
- 맞춤법 검사기 로그 분석으로 오류 어절 발굴 및 교정 데이터 구축
- 대용량 말뭉치에서 n-gram으로 편집거리(edit distance) m에 대해서 수작업으로 문맥규칙 구축
- 검색어 교정 서비스 내 고빈도 오류 키워드 검수하여 맞춤법 검사기에 활용
- 맞춤법 관련 사이트로부터 수동으로 오류 유형 수집 후 규칙 확장
- 참고한 주요 사이트 :
국립국어원 한글 맞춤법 규정
국립국어원 온라인 가나다
국립국어원 트위터
MBC 우리말 나들이

그리고 지난 2월부터는 맞춤법 도움말도 자체 구축했습니다. 도움말 작업에 참고한 데이터는 아래와 같습니다.

- 고려대 사전 (사전 정의)
- 국립국어원 제공 한글 맞춤법 및 표준어 규정

이렇게 하여 저희 다음 맞춤법 검사기는 다음과 같은 데이터를 확보하였습니다.
- 사전 엔트리 건수 : 15만여 건
- 문맥사전 : 3만 6천여 건
- 도움말 : 900여 개

저희는 품질 비교 차원에서 다른 서비스들을 확인한 경우는 있을 수 있지만 특정 서버에 대량으로 쿼리를 보내서 데이터를 수집한 적은 전혀 없음을 밝힙니다. 만약 그렇게 했다면 ip를 비롯한 어떤 흔적이 남았을 것입니다. 저희는 현재도 내부의 전문인력을 활용하여 데이터를 분석한 후 규정에 맞는 엔트리 또는 규칙을 추가하고 있으며 도움말을 보완하고 있습니다.

앞으로 한글 맞춤법 검사의 품질 향상을 위해 계속 노력하겠습니다.

댓글 갯수
이전 댓글 더보기
2016.08.18 01:35

부산대 교수한테 굽히고 들어간 모양새 부터가 부산대 교수의 주장에 무게를 실리게 하는군요. ㅋㅋ 뭐 대기업들이 양아치 짓하는게 한 두번이 아니지만

... 2016.08.18 02:00

여전히 일반 에디터들에서 사용가능한 맞춤법 도우미 조차 또 늦어지게 될 수 있겠다는 생각에 한숨부터 나옵니다.
왜 대기업은 하면 안되는게 있을까요.
공개 API 사용이 절실했는데 이런식으로 막아버리는건 올바른 행동은 아닌듯 싶습니다.

2016.08.18 07:15

아쉽네요. 정말 필요한 기능이 오픈API 로 나와서 어떻게 사용할지 고민하고 있었는데~

ㅇㅇ 2016.08.18 08:12

나 혼자 훔치면 나쁘지만 모두가 같이 훔치면 나쁘지 않다. 라는 뜻

ㅇㅇ 2016.08.18 08:14

최선을 다해 훔치겠습니다 라는 뜻

김개발 2016.08.18 08:29

개발진 카뮤니티에서도 교수가 병진이라는게 압도적인데 이건 또 무슨 병진짓이냐

김경진 2016.08.18 09:13

독자 개발한 것이 맞다면 API를 공유함이 옳습니다. 이런 저런 사유 달았지만 카카오가 돈벌겠다는 것으로 밖에 비춰지지 않네요. 나쁜 선례입니다. 바로 잡아주세요.

구분3 2016.08.18 09:17

1. 오픈 소스와 오픈 API는 구분해야합니다. 카카오가 서비스하던 것은 오픈 API였습니다.
2. 떳떳하다면 오히려 더더욱 API를 공개해야합니다.

문종락 2016.08.18 10:49

정말 안타깝네요...
Api의 중단이 맞춤법 검색 품질 향상에 도움 된다는 부분이 전혀 이해되질 않네요.
사실상 오픈 api로 공개하면 더 많은 데이터를 축적할 수 있고 그럼에따라 더 좋은 기술로 만들어 나아갈수 있을껄로 생각되는데
뭔가 자신이 먼저 연구 시작했으니 다른사람은 건들지마라는 식이니 답답하네요.

yangbuk 2016.08.18 10:56

이번 결정 지지합니다! 역시 다음 카카오!
향후 장기적으로도 상생할 수 있는 좋은 길을 찾으시리라 믿습니다~

sb 2016.08.18 11:33

아니 스타트업 하는 회사들은 그럼 다 경북대에서 사야됩니까? 몇천만원씩 요구할텐데...

API로 공개를 해야 갑,을도 아닌 병,정들이 하는 스타트업에 조금 도움이 되지 않나요. 실망스럽네요. 다음이나 네이버나 저런 연구실에 투자해서 계속 발전 시키는 생각 자체가 없었으니 돈 못받는 교수님이 화가 났겠습니다만. 정부에서 연구비로 십수년간 몇억씩 가져가고 그걸 자기 자회사 만들어서 파는 교수의 치기어린 꼬장에 이런 결정을 하다니 정말 실망스럽습니다.

...? 2016.08.18 13:12

경북대 의문의 1패...

486 2016.08.18 14:15

음... 우리나라가 소프트웨어의 발전이 없는건 큰 회사가 너무 많은걸 혼자 다 하려는 욕심이 중요한 원인 중의 하나라고 생각한다... 생각컨데 어떤 시점에 가서는 그 인력들은 다른 돈되는 곳으로 이동 할거고 자연스레 그 사업도 수익에 비래해서 그 질이 떨어질 것이 분명하다. 그전에 외국 기업에서 그 자리를 더 높은 기술력으로 차지하겠만...

만약 저 교수가 오랜 기간 연구해서 얻은 결과물이고 네이버나 다음과 같은 회사에서 영입하려고 노력한게 사실이라면 푼돈이 아니라 타당성 있는 큰 돈을 제시했어야 한다. 누가 20년간 연구한걸 푼돈에 넘겨주랴~ 대기업이면 대기업답게 거래를 해야 하는게 상도가 아닐까... 그렇게 영입해서 키워야지 정말 이분야에 관심이 있어 뛰어들었다고 생각을 하게 되는 것이다. 그냥 검색 사이트를 가지고 있고 검색어 정보가 있으니깐 이것도 해볼 수 있겠다해서 하는건 뭐 뻔한 결과다. 그냥 다 같이 죽는것... 누구하니 발전이 없을테니깐...

그리고 네이버도 다음도 교수도 어쩜 너무 신경 쓸 필요는 없다... 그저 푼기술을 가지고 너무 많은 고민을 하고 있는지도 모른다... 서로 힘을 합쳐도 힘들판에 한국이라는 골목시장에서 자리 싸움을 하는건 가끔씩 안타갑게 보일 뿐이다. 조금 힘쎈놈이 아무리 좋은 말을 해도 진정성이 보이지도 않는것 같고...

부디 15년 후에도 이 서비스가 한국 기업이나 또 다른 열정 있는 한국인에 의해 서비스되길 바란다~!!

카이스트 대학원생 2016.08.18 17:01

카카오 실망이네요... 이런 원칙과 소신없는 결정에 커다란 실망을 하고 갑니다.

ggjin 2016.08.18 20:37

남이 만든 제품을 복사하다시피 만들어서 그 서비스를 공개하고 공유하는게 옳은일인가요?

dp2 2016.08.19 06:57

글을 읽어보고 답을 다심이. 권교수 측은 구체적인 증거도 없이 베꼈다고 주장하고 있고, 카카오는 자체 구축했음을 밝혔는데 어디가 더 그럴듯하나요? 맞춤법 검사가 무슨 독창적인 제품이라고 앱 같은 거 베끼기랑 비교하는지 참.

고1 2016.08.18 21:57

api 중단 정말 안타깝네요...
api로 공개하면 그를 통해 너 좋은 서비스로 발전시킬수 있을꺼 같습니다

철이 2016.08.19 14:39

저는 부산대 교수님의 스펠러를 돈주고 구입해서 사용한 사용자입니다. (개인용 구매)
한국의 대기업은 쓸데 없이 스타트업 아이디어/노력 죽여서 가로채는 중복투자 하지말고 능력있는 작은 기업들과 공생의 길을 찾아주세요.
십년 노하우를 삼천만원에 가져가려는 식의 접근 제발 하지말고 제대로 보상을 해주세요.

부산대 스펠러 누구나 무료로 쓰면서 그동안 혜택을 봐왔는데..
여기 댓글쓰는 개발자들은 API 공짜로 얻기 바라는 분들 밖에 없는 것 같네요. 스펠러로 정부 지원금 엄청 받아먹은줄 아시나본데 정부에서 이렇게 뽀대나지 않는 기초 사업에 절대 지원하지 않습니다. 의미없는 3D 프린터 출력 센터는 수백억씩 들여 전국에 수십개 지어도 스펠러 같은 기술에는 돈을 안 줍니다. 이런 현실을 이슈화 하려고 블로터에서 기사를 시리즈로 낸 것이구요.

서비스 하나 만들어서 수 십년간 서비스 무료로 하면서 개발자, 디자이너, 기획자들 월급주면서 유지하는게 보통일인줄 아십니까?
개발자 분들은 자기가 만든 코드 공짜로 오픈하라면 하시겠습니까? 한번 만든 서비스 10년간 돈안받고 유지보수 하시렵니까?

ds9 2016.08.20 18:38

수십년 동안 그 교수님이 어떤 노력을 했든, 두 개의 포탈측에서 순식간에 따라잡을 정도라면 이상하지 않나요? 제 아무리 돈 많고 잘나가는 포탈 대기업이라도? 그 동안 컴퓨터 기술이 전반적으로 발전한 데다가, 애초에 그렇게 만들기 어려운 주제는 아니었던 거예요. 사실 이것만 갖고 돈 벌기도 어려운 분야죠. 그냥 자기가 수십년 동안 해 왔으니까 보장해줘야 된다?

마지막 질문에 대해 개발자로서 답변하자면, 저라면 이렇게 보편적이고 장벽이 높지 않은 아이템으로 돈 버는 모델을 만들지 않을 겁니다.

2016.08.31 23:58

십년 노하우를 삼천만원에 가져간게 아니라 10년동안 개발한게 1달만에 따라잡을정도로 별거 아니었다는거죠 ㅋㅋ
별거 아닌게 아니었더라도 현재 발전한 기술력으로는 그 10년의 노력이 아무것도 아니었다는겁니다. 뗀석기에서 간석기 만들때까지 얼마나 긴 시간이 걸렸습니까? 그리고 그분이 만든 코드가 아니라 카카오 자체제작 코드인데요. 자기가 만든 코드랑 같은 기능을 한다고 남의코드를 막 이래라 저래라 함?

쓰레기톡 2016.08.19 23:08

에이 진짜.... 짜증 대박이네.

정말 상관없으면 소송을 걸어서라도 싸우지, 이렇게 내린다는거 자체가 자기들 잘못 인정한다는걸 모르는건가? 어쩐지 몇일전부터 잘 안되더라니.... 더이상 실망 할거 없다고 생각했는데 이렇게 터트려주는게 놀랍습니다.

다양성 2016.08.20 22:39

개발 과정이 자세히 소개된 것도 아니고, 개발팀이 몇 년간 '실질적으로' 운영되었으며, 핵심적인 부분에서 부산대 검사기를 얼마나 참고했는지 이런 사실들이 안 나와 있네요. 누구 말이 맞는지 모르는건데 부산대 교수님은 그냥 속물 되어버리네요?

근데 부산대 교수님에게 포털 측에서 제안 했다는 그 금액 있잖아요. 개발자 분들 정당한 금액이라 생각해요? 저는 완전 개발자들 노력은 똥값이네, 이 생각했는데...

지나가다 2016.08.23 21:06

1. 안배낀것에 대해서는 증명하면 될거같고. 그전에 배낀것에 대해 객관적인 사실을 가지고 배꼇다고 해야하는거 아닌가? 사실확인도 안된일로 이미 명예를 회손시키는 행위 아닌가?

2. 제안했다는 금액이 얼마인지 모르지만 이건 비지니스 영역 아닌가? 그게 중요하고 어려운 일이라 생각했으면 크게 불렀을거고 직접 만들수도 있는거라면 적당히 불렀겠지. 무조건 많이 불러야 하는건가? 26년 연구의 산물이라는게 본인이 26년이지 남이 하면 2년이 될수도 있는거 아닌가?

카카오는 더 디테일한 기술을 공개해준다면 더 시원할 것 같다.

사이다 2016.08.21 19:13

토론의 주제가 - API로 만들어서 여러사람들이 혜택을 보는게 나은가 vs 그로인해 피해를 보는 기업입장을 더 고려해야 하는가 - 이렇게 가야 옳다고본다. 대기업 vs 중소기업 으로 몰아가는건 여론몰이며 물타기다.

대기업이 골목에 빵집을 짓는걸 예시로 자꾸 드는데 나도 대기업이 이거저거 다 벌리는거 싫어한다.
그런데 대기업이 골목에 빵집을 지으면 그 수익은 모두 대기업의 이윤으로 돌아간다.
오픈API를 제공하는건 이걸 이용해서 돈을 벌겠다는게 아니라 제공한 API를 기반으로 해서 더 많은 서비스가 개발되길 바라는거다.
이게 어떻게 똑같은가?

교수는 자신의 입장표명 글에서 베낀걸 검증하는게 힘들다는걸 인정했다.
https://www.facebook.com/hyukchul.kwon.902/posts/10202057930966208

1. 또 실제 베꼈는지를 증명할 마땅한 방법이 없어 잘못하면 소모적 논쟁이 될 수 있기 때문이기도 합니다.
2. 문제의 본질은 베꼈느냐 아니냐가 아닙니다.

증명할 마땅한 방법이 없었다면 애초에 단정적으로 글을쓰지 말았어야 한다.
두번째 문장도 몹시 거슬린다. 문제의 본질이 베꼈느냐 아니냐가 아니라고?
처음에 사람들이 분노하고 공감한 이유가 사실 저 부분이 크다는걸 정말 모르는건가 모른체하고싶은건가.
입장표명 글에 맞춤법 설명이 장황하게 긴것도 안좋게 보면 논지를 흐리는것처럼 보인다.
명백하게 밝혀진 사실이 아니라면 자신이 그렇게 생각한 이유를 이야기하면서 조심하게 접근하는게 맞지 마치 사실인냥 쓰는건 잘못되었다.

이제라도 시원스럽게 아직 밝혀진 사실이 아님을 고백하고 자신이 경솔했다고 인정하면 된다. 증거가 있다면 같이 올려서 공감대를 얻으면 된다. 자신이 돈만 밝히는 교수라고 속물인냥 취급되는게 싫으신 모양인데 그럼 본인으로 인해 중소기업 베껴먹는 기업으로 낙인 찍히는 기업입장은 생각해보셨나 모르겠다.

이런 2017.09.04 20:35

이래도 욕먹고 저래도 욕먹고 힘들겠네..

TOP