본문 바로가기 메뉴 바로가기

kakao 블로그 본문

다음 맞춤법 검사기와 관련된 논란에 대해 설명드립니다.

2016.08.17 15:48

다음 맞춤법 검사기와 관련된 논란에 대해 설명드리고자 합니다.

지난 15일 한글 맞춤법 분야에서 오랫동안 헌신해오신 부산대 권혁철 교수님께서 개인 SNS에 저희 맞춤법 검사기가 권 교수님이 개발한 서비스를 역공학으로 분석해 구축했으며 맞춤법 API 공개에 대해서도 문제가 있다는 지적을 하셨습니다.

저희는 17일 직접 권 교수님께 전화를 드려, 다음 맞춤법 검사기는 자체 구축한 것이고, 권 교수님의 맞춤법 검사기 웹 페이지를 역공학(리버스 엔지니어링)으로 분석해 서비스를 개발한 것이 아니라는 점을 설명드렸습니다. 권 교수님은 이에 대해서 양쪽 서비스를 비교해보면 서로의 해석이 다를 수 있다고 말씀하셨습니다.

아울러 저희는 API를 공개할 경우 한글 맞춤법 검사기 개발에 차질을 빚을 수 있다는 권 교수님의 우려를 받아들여 다음 맞춤법 검사기 API 공개를 중단하겠다고 말씀드렸습니다. 그리고 한글 맞춤법 검사기의 품질 향상을 위해 같이 협력하기로 의견을 모았습니다.

참고로 카카오가 맞춤법 검사기를 구축한 과정에 대해 덧붙이고자 합니다.

카카오는 오랜 기간 제공해온 검색 서비스를 통해 이용자들의 다양한 검색어(쿼리) 입력을 분석해 왔습니다. 이용자가 검색 서비스를 사용하는 과정에서 오타로 잘못된 문장을 입력하더라도 원하는 결괏값을 찾을 수 있도록 하는 데 맞춤법 검사가 중요한 역할을 하고 있습니다.

카카오는 맞춤법 검사가 다양한 서비스들에 활용되는 만큼 관련 기술 확보를 위해 지난 2014년 7월부터 자체적으로 맞춤법 검사기 개발을 진행해 왔으며, 현재 다음검색, 어학사전, 브런치에 활용하고 있습니다.

아울러 카카오는 개방과 공유라는 서비스 철학을 기반으로 누구나 쉽고 편리하게 활용할 수 있도록 오픈 API 서비스를 꾸준히 확대해왔습니다. (카카오의 오픈 API)

지난달 맞춤법 검사기 API를 공개한 이후, 3rd party 개발자들이 웹 에디터 등의 서비스에 활용할 수 있게 되어 고맙다는 뜻을 전해오기도 했습니다. 하지만 오랫동안 맞춤법 검사기 개발에 헌신해온 권 교수님의 우려에 따라 맞춤법 검사기에 대해서는 예외적으로 API 공개를 중단하기로 결정했습니다.

이번 결정으로 카카오의 근본적인 오픈 API 철학이 바뀌는 것은 아니며, 앞으로 오픈 API에 대한 기술 기반 혁신을 지지하는 많은 분들과 함께 더 깊이 고민할 수 있는 계기로 삼도록 하겠습니다.

[다음 맞춤법 검사기 데이터 구축 방식]

한글 맞춤법 규정은 공개된 내용으로 누구나 쉽게 확인할 수 있으며 저희 서비스 역시 이를 토대로 몇 년간 자체 작업해 온 결과물입니다. 저희가 어떻게 맞춤법 유형을 파악했고 데이터를 구축했는지 공개하고자 합니다.

저희는 아래와 같은 다양한 데이터를 활용하여 맞춤법 오류 유형을 파악하고 교정 데이터를 자체적으로 구축하였습니다.

- 형태소 분석기(자체 개발) 사전에 등재된 모든 엔트리를 전수 검사하여, 오타와 정타를 분리
- 형태소 분석 실패 어절 오타 여부 확인
- 맞춤법 검사기 로그 분석으로 오류 어절 발굴 및 교정 데이터 구축
- 대용량 말뭉치에서 n-gram으로 편집거리(edit distance) m에 대해서 수작업으로 문맥규칙 구축
- 검색어 교정 서비스 내 고빈도 오류 키워드 검수하여 맞춤법 검사기에 활용
- 맞춤법 관련 사이트로부터 수동으로 오류 유형 수집 후 규칙 확장
- 참고한 주요 사이트 :
국립국어원 한글 맞춤법 규정
국립국어원 온라인 가나다
국립국어원 트위터
MBC 우리말 나들이

그리고 지난 2월부터는 맞춤법 도움말도 자체 구축했습니다. 도움말 작업에 참고한 데이터는 아래와 같습니다.

- 고려대 사전 (사전 정의)
- 국립국어원 제공 한글 맞춤법 및 표준어 규정

이렇게 하여 저희 다음 맞춤법 검사기는 다음과 같은 데이터를 확보하였습니다.
- 사전 엔트리 건수 : 15만여 건
- 문맥사전 : 3만 6천여 건
- 도움말 : 900여 개

저희는 품질 비교 차원에서 다른 서비스들을 확인한 경우는 있을 수 있지만 특정 서버에 대량으로 쿼리를 보내서 데이터를 수집한 적은 전혀 없음을 밝힙니다. 만약 그렇게 했다면 ip를 비롯한 어떤 흔적이 남았을 것입니다. 저희는 현재도 내부의 전문인력을 활용하여 데이터를 분석한 후 규정에 맞는 엔트리 또는 규칙을 추가하고 있으며 도움말을 보완하고 있습니다.

앞으로 한글 맞춤법 검사의 품질 향상을 위해 계속 노력하겠습니다.

저작자 표시 비영리 변경 금지
신고
댓글 갯수46
TOP