program tip

lemmatization과 형태소 분석의 진정한 차이점은 무엇입니까?

radiobox 2020. 8. 7. 08:16
반응형

lemmatization과 형태소 분석의 진정한 차이점은 무엇입니까?


언제 각각을 사용합니까?

또한 ... NLTK 표식 화는 품사에 의존합니까? 만약 그렇다면 더 정확하지 않을까요?


짧고 조밀함 : http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

형태소 분석과 lemmatization의 목표는 굴절 형식과 때로는 파생적으로 관련된 단어 형식을 공통 기본 형식으로 줄이는 것입니다.

그러나 두 단어의 풍미가 다릅니다. 형태소 분석은 일반적으로 대부분의 경우이 목표를 올바르게 달성하기 위해 단어의 끝을 잘라내는 조잡한 휴리스틱 프로세스를 나타내며, 종종 파생 접미사 제거를 포함합니다. 기본형 화는 일반적으로 어휘 및 단어의 형태 학적 분석을 사용하여 일을 올바르게 수행하는 것을 의미하며, 일반적으로 어미의 어미 만 제거하고 기본형 또는 기본형으로 알려진 단어의 사전 형식을 반환하는 것을 목표로합니다.

NLTK 문서에서 :

기본 화 및 형태소 분석은 정규화의 특별한 경우입니다. 일련의 관련 단어 형식에 대한 표준 대표를 식별합니다.


기본형 화형태소 분석 과 밀접한 관련이 있습니다. 차이점은 형태소 분석기는 문맥에 대한 지식없이 단일 단어에서 작동하므로 품사에 따라 의미가 다른 단어를 구별 할 수 없다는 것입니다. 그러나 형태소 분석기는 일반적으로 구현하기 쉽고 더 빠르게 실행되며 일부 애플리케이션에서는 정확도 감소가 중요하지 않을 수 있습니다.

예를 들어 :

  1. "better"라는 단어는 기본형으로 "good"이 있습니다. 이 링크는 사전 조회가 필요하므로 형태소 분석에서 누락되었습니다.

  2. "walk"라는 단어는 "walking"이라는 단어의 기본 형식이므로 형태소 분석과 lemmatisation 모두에서 일치합니다.

  3. "회의"라는 단어는 문맥에 따라 명사의 기본 형태 또는 동사의 형태 ( "만나다")가 될 수 있습니다 (예 : "마지막 회의에서"또는 "우리는 내일 다시 회의"). 형태소 분석과 달리 lemmatisation은 원칙적으로 상황에 따라 적절한 기본형을 선택할 수 있습니다.

출처 : https://en.wikipedia.org/wiki/Lemmatisation


형태소 분석과 분류 화의 목적은 형태 적 변화를 줄이는 것입니다. 이것은 어휘-의미, 구문 또는 직교 변형을 다룰 수있는보다 일반적인 "용어 융합"절차와는 대조적입니다.

형태소 분석과 lemmatization의 실제 차이점은 세 가지입니다.

  1. 형태소는 단어 형식을 (의사) 줄기로 축소하는 반면, lemmatization은 단어 형식을 언어 적으로 유효한 기본형으로 축소합니다. 이 차이는 더 복잡한 형태를 가진 언어에서 분명하지만 많은 IR 응용 프로그램과 관련이 없을 수 있습니다.

  2. 기본 화는 변곡 적 분산 만 처리하는 반면, 형태소 분석은 파생적 분산도 처리 할 수 ​​있습니다.

  3. 구현 측면에서 lemmatization은 일반적으로 더 정교하며 (특히 형태 적으로 복잡한 언어의 경우) 일반적으로 일종의 렉시 카가 필요합니다. 반면에 만족스러운 형태소 분석은 단순한 규칙 기반 접근 방식으로 달성 할 수 있습니다.

주형 화는 동음 이의어를 명확하게하기 위해 품사 태거에 의해 뒷받침 될 수도 있습니다.


차이점을 보여주는 두 가지 측면이 있습니다.

  1. 형태소 분석기는 단어의 형태 루트와 동일 할 필요는 없다 단어의 줄기를 반환합니다. 일반적으로 관련 단어가 동일한 어간에 매핑되는 것으로 충분합니다. 어간 자체가 유효한 어근이 아니더라도 lemmatisation 에서는 유효한 단어 여야하는 단어의 사전 형식을 반환합니다.

  2. lemmatisation 에서는 단어의 품사를 먼저 결정해야하며, 품사별로 정규화 규칙이 달라지는 반면 형태소 분석기 는 문맥에 대한 지식없이 단일 단어에서 작동하므로 서로 다른 단어를 구별 할 수 없습니다. 품사에 따른 의미.

참조 http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization


MYYN이 지적했듯이 형태소 분석은 모든 원래 단어와 관련이있을 수있는 기본 형식에 대한 굴절 및 파생 접미사를 제거하는 프로세스입니다. 주형 화는 여러 가지 변형 된 형태를 함께 그룹화 할 수있는 단일 단어를 얻는 것과 관련이 있습니다. 형태소 분석은 문맥을 무시하는 반면 문맥 (따라서 단어의 의미)을 고려해야하기 때문에 형태소 분석보다 어렵습니다.

둘 중 하나를 사용하는 경우는 문맥에서 단어의 의미를 올바르게 파악하는 데 응용 프로그램이 얼마나 의존하는지가 중요합니다. 기계 번역을하는 경우 단어를 잘못 번역하지 않도록 lemmatization을 원할 것입니다. 쿼리의 99 %가 1-3 단어 범위 인 10 억 개 이상의 문서를 검색하는 경우 형태소 분석에 만족할 수 있습니다.

NLTK의 경우 WordNetLemmatizer는 품사를 제공해야하지만 품사를 사용합니다 (그렇지 않으면 기본값은 명사입니다). "dove"와 "v"를 전달하면 "dive"가 생성되고 "dove"와 "n"이 "dove"가됩니다.


lemmatization과 stemming의 차이점에 대한 예제 기반 설명 :

Lemmatization"car"와 "cars"의 일치를 처리하고 "car"와 "automobile"을 일치시킵니다.

"car"와 "cars"를 일치시키는 어간 처리 핸들 .

주형 화는 동일한 하위 시스템에서 여전히 처리하는 광범위한 퍼지 단어 일치를 의미합니다. 이는 엔진 내 저수준 처리를위한 특정 기술을 의미하며 용어에 대한 엔지니어링 선호도를 반영 할 수도 있습니다.

[...] FAST를 예로 들어, 그들의 lemmatization 엔진은 단수 대 복수와 같은 기본 단어 변형뿐만 아니라 "hot"일치 "warm"과 같은 동의어 사전 연산자도 처리합니다.

물론 다른 엔진이 동의어를 처리하지 않는다는 말은 아니지만 저수준 구현은 기본 형태소 분석을 처리하는 것과 다른 하위 시스템에있을 수 있습니다.

http://www.ideaeng.com/stemming-lemmatization-0601


ianacl
그러나 나는 Stemming이 사람들이 같은 단어의 모든 다른 형태를 합법적 인 단어가 될 필요가없는 기본 형태로 내려가는 데 사용하는 거친 해킹이라고 생각
합니다 Porter Stemmer와 같은 것은 일반적인 단어 접미사를 제거하기 위해 간단한 정규식을 사용할 수 있습니다

Lemmatization은 단어를 실제 기본 형식
으로 가져 와서 불규칙 동사의 경우 입력 단어 와는 다르게 보일 수 있습니다. FST를 사용하여 명사와 동사를 기본 형식으로 가져 오는 Morpha와 같은 것

참고 URL : https://stackoverflow.com/questions/1787110/what-is-the-true-difference-between-lemmatization-vs-stemming

반응형