Loading

블로그채널

Search !

유사 문서 알고리즘과 네이버 검색 누락 대처 방법은?


여러분이 힘들게 포스팅을 하나 썼어요. 그런데 하루가 지나도 네이버에 검색이 되지 않습니다. 우리는 슬픔에 잠기게 됩니다. 네이버가 원망스럽고 네이버 검색 엔진을 개발한 사람들이 밉습니다. 이 세상에서 없어져야할 기업이 네이버였으면 좋겠다는 생각을 들지도 모릅니다.

 

네이버는 유사 문서에 대해 Originality 알고리즘을 반영해 걸러냅니다. 여러분이 뉴스나 다른 사람의 글을 가져오면 네이버 글 수집 봇은 그 글을 유사문서로 분류하여 누락시킵니다. 그래서 남의 글을 훔치면 법적으로 저작권 침해가 되어 문제가 생기고 네이버에 검색 누락이 되어 결과적으로 블로그 품질 지수가 떨어지게 됩니다.

 

네이버는 유사 문서에 대처하기 위해 만든 ‘프로젝트 Bio‘에 2012년 10월 30일에 공개하였습니다. 원본 문서를 우선 노출하기 위해 ’프로젝트 Bio’에서 밝힌 유사 문서 알고리즘을 살펴보겠습니다.

 

청크 변환 예제

유사 문서 알고리즘과 네이버 검색 누락 대처 방법은?

 

 

먼저 두 문서를 비교하기 위해 문장이나 구 혹은 절과 이미지(그림)를 나눕니다. 이렇게 나누어진 부분을 청크(Chunk)라고 부릅니다. 짧은 문장이나 자주 사용되는 문구는 제외합니다. 이렇게 나누어진 청크는 비교하기 쉽게 128bits 해쉬 값으로 만들어 놓습니다. 해쉬 값은 쉽게 설명하지면 충돌이 일어나지 않게 줄여서 고유의 값으로 매핑하는 것을 말합니다. 



네이버에서 소개한 위 수식은 정말 어렵지 않은 수식입니다. 아마 시그마의 의미와 집합에 대한 개념만 알고 있으면 누구나 이해할 수 있는 공식입니다. 말로 설명하는 것보다 수식으로 표현하는 것이 더 명확하기 때문에 위와 같이 수식으로 표현합니다. 여기서 중요한 것은 글 외에도 그림이 유사 문서 판정을 위해 들어간다는 것입니다.

 

 

 

Originality 공식

유사 문서 알고리즘과 네이버 검색 누락 대처 방법은?

 

첫 번째 Originality 공식은 문서 내 다른 문서를 복사한 부분이 많을수록 수치가 낮아짐을 의미합니다. 즉 복사한 부분이 없을 때는 1이 되지만 복사한 부분이 30%라면 0.7이 됩니다. Originality가 70%라는 이야기입니다.  예를 들어 글 하나가 청크 10개로 만들어 졌습니다. 복사한 청크가 3개가 나왔다면 다음과 같이 계산하면 70%가 Originality가 됩니다.

 

Originality = (10 – 3) / 10 = 0.7 = 70%

 

두 번째 Originality 공식은 먼저 만들었고 복사가 많이 이루어지는 원본 글에 대해서 가산점을 주겠다는 이야기입니다. 원래 Originality가 100%면 1.0이 됩니다. 그 글 뒤에 만들어진 다른 문서를 전부 찾아서 복사한 부분만큼 가산점을 적용합니다. 예를 들어 A글이 원본 글이고 B글에서 20%를 복사했고 C글에서 30%를 복사했고 D글에서 50%를 복사했다고 가정하겠습니다. A글의 Originality 점수 1.0에서 복사한 글의 비율만큼 점수로 더합니다. B글은 원본 글의 20%가 복사 글이니 0.2점, 마찬가지로 계산하면 C글 0.3점, D글 0.5점이 됩니다.

 

Originality A = 1 + 0.2 + 0.3 + 0.5 = 2.0

 

네이버 Originality 알고리즘에 의하면 A글은 많이 인용되어 인용당하지 않은 문서보다 더 중요한 문서로 취급합니다.

 

 

 

Originality 산출 예제

유사 문서 알고리즘과 네이버 검색 누락 대처 방법은?

 

 

남에 글 복사를 하면 할수록 Originality 점수가 낮아져 중요하지 않은 문서로 취급됩니다. 네이버는 Originality 점수가 일정 값을 벗어날 경우 그 글을 수집해 가지 않을 것입니다. 기준이 되는 값을 흔히 threshold라고 불립니다. threshold는 문턱 혹은 한계점이라는 의미를 가지고 있습니다. 예를 들어 threshold가 0.5 미만일 경우 네이버가 글을 수집해가지 않을 수 있습니다.

 

그러면 유사 문서에 대한 이론을 알았으니 여러분은 이제 생각만 하면 여러 가지 대처 방안을 만들어낼 수 있습니다. 좋은 아이디어가 떠올랐나요?

 

여러분의 글의 Originality 점수가 0.4가 되었다면 0.5로 만들어 주면 됩니다. 약 10%정도의 독창성을 가진 글을 추가해주면 된다는 이야기입니다. 글의 중요도를 더 높이려면 더 많은 글을 채워 넣으면 될 것입니다. 원본 글에서 독창성 있는 글을 더 많이 늘리면 늘릴수록 점수는 높아질 것입니다.

 


네이버 BIO 프로젝트 동영상

 

이 글을 보면서 매우 답답해하는 분도 있을 겁니다. 독창성이 있는 글을 쓰면 아무런 문제가 없을 것입니다. 하지만 살다보면 어쩔 수 없는 경우가 생기기도 합니다. 얼마 전 메이저리그 류현진 선수는 부상으로 수술을 했고 그에 대해 인터뷰하는 시간을 가졌습니다. MLB.com을 비롯해 많은 매체에서 류현진 선수의 인터뷰 동영상을 공개하였습니다.

 

류현진 선수의 동영상을 토대로 인터뷰 내용을 정리했고 글을 올렸습니다만, 하루가 지나도록 글이 네이버에 반영되지 않았습니다. 반면 구글에는 그 글이 문제없이 검색 되었습니다. 문제는 류현진의 인터뷰 내용만으로는 아무런 독창성을 가질 수 없어 네이버 검색에 반영되지 않은 것입니다. 이럴 경우 어떻게 해야 할까요?

 

여러분은 글을 비공개 혹은 삭제해서 쓴 글을 다시 뜯어고쳐 새롭게 글을 등록하는 방법을 택할 수도 있습니다. 이런 문제가 생기면 단어를 바꾸거나 문장을 유사하게 다시 씁니다. 네이버가 형태소를 중심으로 유사성을 따진다고 가정하면 조사를 바꾸는 것은 별 의미가 없게 됩니다.

 

원본 글을 그대로 두고 독창성 점수가 올라가도록 새로운 글을 추가해주는 방식도 취할 수 있습니다. 글이 검색 반영이 안 될 때는 내용을 고치면 고칠수록 내용을 더 추가하면 추가할수록 네이버가 그 글을 수집해 가는데 도움을 줄 것입니다.

 


류현진 부상 인터뷰 글, 빨간색 부분이 추가된 글

유사 문서 알고리즘과 네이버 검색 누락 대처 방법은?

 

여기서 팁 한 가지를 드리자면 실시간 검색어에 오르거나 인기 있는 글에 해당할 경우 필터링이 강화됩니다. 평소에 잠잠하던 글이 갑자기 실시간에 오를 경우 네이버 필터링 봇의 검열에 걸려 글이 누락될 수도 있습니다. 그럴 경우 문제가 되는 내용 및 단어를 찾아 고쳐주면 다시 그 글이 검색에 반영되기도 합니다.

 

정리하면 검색이 누락된 글은 고칠수록 좋고 검색이 잘되는 인기 글은 고치지 않는 것이 좋습니다. 만약 불가피하게 고칠 경우 검색 누락이 될 수도 있습니다. 이 경우 어떤 내용을 추가했는지 잘 따져봐야 합니다. 주로 19금 및 광고 등 적절하지 못한 단어가 문제되곤 합니다.

 

네이버에 검색 누락이 된 글이 많은 블로그는 품질 지수가 떨어질 것이고 검색 누락된 글이 한계상황에 도달한다면 블로그 전체가 누락될 위험에 처해질지도 모릅니다. 네이버 검색 누락 등 문제가 생길 경우 내버려두지 말고 여러가지 방법으로 대처하는 것이 바람직합니다.

 

유사문서 외에 다른 이유로 검색 누락이 되었다면 아래의 글을 참조하세요.

 

[Copyright ⓒ 블로그채널 blogCHANNEL 무단전재 및 재배포 금지]