Distributional Hypothesis
3. 같이 쓰인 단어 고려
단어의 의미는 주변 단어로부터 유추할 수 있다.
우리가 국어 시간에 비문학 지문을 풀 때, 혹은 해외 글들을 읽을 때 모르는 단어를 발견하면
보통 사전 먼저 찾기 보다는 그 단어가 대충 무슨 뜻인지 짐작을 하고 넘어갈 것이다.
그리고 실제로 학교에서 국어시간에 그런 유추하는 법을 배운다. (언제 배우는지는 모르지만 교과서에 등장한 것을 기억한다.)
이것이 가능한 이유는 우리가 주변 단어를, 맥락(context)을 알고 있기 때문이다.
영어 모의고사에서도 죽어라 풀었던 빈칸에 알맞은 말 고르기도 다 그런 식으로 푸는 것이다.
사실 잘 보면 보기 다섯개 다 넣었을 때 문법적으로 말이 안 되는 말은 없다.
근데 일단 그 중 하나가 분명 주변 맥락과 관계가 있고 나머지는 없다.
또한 다섯개 중 하나는 정답과 반의어다. (여기 반의어에 관심을 두자)
컴퓨터도 이런 문제를 푸는 방식은 똑같다.
각 보기에 대한 확률을 계산할 것이고 그 확률이 가장 높은 것을 고를 것이다. 답은 딱 하나이다.
단 우리는 사람이라서 확률을 계산하는 것이 아니기에 둘 다 넣어도 말이 되긴 되는 문제가 나오면
학생들 학부모들이 일어나서 난리를 칠 것이다.
단어는 단어가 어디서 어떤 단어랑 같이 쓰이는지에 따라 의미가 나타난다.
따라서 어떤 단어 쌍이 비슷한 문맥에서 자주 등장한다면 그 의미가 유사할 것이라는 것이 분포 가정의 전제이다.
일단 내가 학습하려는 단어를 하나 정하자. 그리고 이를 중심 단어 (center word) 라고 하고
그 주변의 단어들을 문맥 단어 (context word) 라고 하자.
여기서는 ‘와인’과 ‘꼬냑’을 중심으로, ‘프랑스’와 ‘산지’를 문맥 단어로 정한다.
“…에디트 피아프는 프랑스의 샹송 가수이다. 그녀는 고급스러운 와인을…”
“…프랑스는 와인의 나라이다. 와인은 산지에 따라서 브루고뉴, 보르도 등으로…”
“…꼬냑은 와인을 증류하여 만든 브랜디의 일종이다. 꼬냑은 프랑스의 브랜디 산지로…”
‘와인’이 들어간 문장의 그 주변 단어들을 보자.
‘와인’은 ‘프랑스’, ‘산지’, ‘고급스러운’, ‘꼬냑’ 등의 단어와 같이 사용되었다.
또한 ‘꼬냑’은 ‘프랑스’, ‘산지’, ‘브랜디’, ‘와인’등의 단어와 같이 사용되었다.
이를 분포 가정에 적용해본다면 와인은 꼬냑과 비슷한 의미를 가질 것이라고 예측해볼 수가 있다.
물론 와인과 꼬냑은 각기 다른 술 종류이지만 (꼬냑은 술의 종류도 아니지만 대충 넘어가자)
꼬냑은 프랑스의 꼬냑 지방에서 만들어진 브랜디 와인을 일컫는 말로, 또 둘 다 술이니까 관계가 있다.
분포라는 것의 의미는 언어학적으로 형태소, 품사 등이 있다.
형태소는 언어의 최소 단위이다.
“메가데스의 데이브 머스테인은 전직 메탈리카의 기타리스트였다.” 를 나눠보면
메가데스, 의, 데이브 머스테인, 은, 전직, 메탈리카, 기타리스트, 이, 었, 다 로 나눌 수 있다.
여기서 무언가를 볼 수 있다.
의라는 형태소는 항상 어떤 명사 뒤에 올 것이다.
과거를 나타내는 었이라는 형태소 (선어말 어미) 는 항상 거의 끝에 나올 것이다.
(선어말 어미라는 것 자체가 어말 어미 앞에 온다는 뜻)
다 (어말 어미) 는 항상 문장 끝에 올 것이다.
품사는 단어를 기능, 의미, 형태에 따라 나눈 갈래이다.
위 세 기준에 맞춰 다음 문장을 비교하여 보자.
“이 샘의 깊이가 얼마냐?”
“저 산의 높이가 얼마냐?”
“이 샘이 깊다.”
“저 산이 높다.”
기능으로 분류하자면 길이, 높이를 같은 품사로, 깊다, 높다를 같은 품사로 묶을 수 있다.
깊이, 높이는 각 문장에서 주어 기능을 하고, 깊다 높다는 문장의 서술어 역할을 하고 있다.
실제로 깊이, 높이는 체언/명사, 깊다 높다는 용언/형용사에 속한다.
의미로 분류한다면 역시 의미가 같으면서도 품사가 다른 것들이 있다.
“멋지다”와 “멋진” 은 다른 품사이다.
“멋지다”는 형용사고 “멋진”은 관형사이다.
게다가 멋은 명사이다.
멋지다는 멋 + -지다 이고 멋진은 멋 + 지 + ㄴ (관형사형 전성어미) 이다.
멋에 지다 라는 접사가 붙어 형용사가 되었고, 멋지다에서 다라는 어미가 탈락하고
관형사형 전성어미가 붙어 관형사 (명사 앞에서 수식)가 된 것이다.
형태로 분류해도 아리까리한 것은 마찬가지.
“메가데스를 좋아합니다.”
“와, 메가데스!!!”
첫 문장에서 메가데스는 명사고, 두번째에선 감탄사다.
따라서 품사는 기능으로 주로 구분이 된다. 또한 이는 분포와 밀접한 관련을 맺는다.
국어시간에 관형사랑 형용사 헷갈려하는 장면을 기억하는가?
다른 국어 선생님들은 모르겠는데 나를 가르쳤던 몇몇 국어 선생님들은 형용사는 명사 뒤에 오고 관형사는 앞에 온다고 가르쳐주셨다.
그리고 조사는 분명 체언(명사, 대명사, 수사) 뒤에 온다.
부사는 분명 동사, 형용사 등의 용언 앞에 올 것이다.
따라서 품사를 구분하는 불변의 척도는 기능과 분포이다.
분포에 따르지 않는 문장이라면 문법적으로 어긋난 문장이다.
한국어는 문법적 기능을 하는 단어(조사, 어미 등)가 붙어서 형성되는 교착어이기 때문에
어순이 틀려도 말이 되는 것일 뿐이다.
그리고 아무리 그래도 지금 위에 언급한 명사-형용사, 관형사-명사, 체언-조사, 부사-용언 관계를 무시하면 말이 안 된다.
자주 등장하는 단어를, 그 쌍이 얼마나 자주 등장하는지 수치로 나타내는 수학적 모델이 있다.
바로 PMI, pointwise mutual information 이라는 뜻이 점별 상호 정보량이다.
이는 두 확률이 얼마나 독립인지를 구한다.
독립이라는 뜻은 서로가 서로의 등장에 영향을 주지 않는다는 뜻이다.
확률과 통계에서 말하는 독립과 일맥상통하다.
따라서 PMI 는 두 단어가 독립일 수록 값이 작아진다.
통계학에서 독립의 성질은 다음과 같았다. P(A^B) = P(A)P(B)
따라서 P(A^B)/P(A)P(B) 가 1이라는 말은 둘이 독립이라는 뜻이다.
그래서 이것에 log 를 씌우면 둘이 완전 독립일 때 0이라는 수치가 나온다.
두 단어가 연관이 있을 수록 PMI 값은 커진다.
대표적인 분포 가정 모델로 Word2Vec 이 있다.
Word2Vec 모델은 Skip-gram, CBOW 의 두 가지 모델이 있는데
Skip-gram 은 중심 단어로 주변 단어들을 예측하고
CBOW(Continuous Bag of words)는 주변 단어로 중심 단어를 예측하는 모델이다.