Désambiguïsation en linguistique et linguistique informatique

En linguistique, la désambiguïsation est le processus qui consiste à déterminer quel sens d'un mot est utilisé dans un contexte particulier. Également connu sous le nom de désambiguïsation lexicale.

En linguistique computationnelle, ce processus discriminant est appelé désambiguïsation au sens du mot (WSD).

Exemples et observations

"Il se trouve que notre communication, dans différentes langues, permet d'utiliser la même forme de mot pour signifier différentes choses dans les transactions de communication individuelles. La conséquence est qu'il faut comprendre, dans une transaction particulière, la signification voulue d'un mot donné parmi ses sens potentiellement associés. ambiguïtés résultant de ces multiples associations forme-signification sont au niveau lexical, elles doivent souvent être résolues au moyen d'un contexte plus large à partir du discours incorporant le mot. Par conséquent, les différents sens du mot «service» ne pouvaient être distingués que si l'on pouvait regarder au-delà du mot lui-même, comme en contrastant «le service du joueur à Wimbledon» avec «le service du serveur à Sheraton». Ce processus d'identification des significations des mots dans un discours est généralement connu sous le nom de sens des mots désambiguïsation (WSD). "(Oi Yee Kwong, Nouvelles perspectives sur les stratégies informatiques et cognitives pour la désambiguïsation du sens des mots. Springer, 2013)

Désambiguïsation lexicale et désambiguïsation au sens du mot (WSD)

"Lexical désambiguïsation dans sa définition la plus large n'est rien de moins que de déterminer le sens de chaque mot dans le contexte, ce qui semble être un processus largement inconscient chez les gens. En tant que problème informatique, il est souvent décrit comme «AI-complet», c'est-à-dire un problème dont la solution suppose une solution pour compléter la compréhension du langage naturel ou le raisonnement de bon sens (Ide et Véronis 1998).

"Dans le domaine de la linguistique informatique, le problème est généralement appelé désambiguïsation du sens du mot (WSD) et est défini comme le problème de la détermination par calcul du" sens "d'un mot qui est activé par l'utilisation du mot dans un contexte particulier. Le WSD est essentiellement une tâche de classification: les sens des mots sont les classes, le contexte fournit la preuve, et chaque occurrence d'un mot est affectée à une ou plusieurs de ses classes possibles en fonction de la preuve. C'est la caractérisation traditionnelle et commune de WSD qui voit comme un processus explicite de désambiguïsation par rapport à un inventaire fixe des sens des mots. Les mots sont supposés avoir un ensemble fini et discret de sens provenant d'un dictionnaire, d'une base de connaissances lexicales ou d'une ontologie (dans ce dernier, les sens correspondent à des concepts qu'un mot lexicalise). Des inventaires spécifiques à l'application peuvent également être utilisés. Par exemple, dans un cadre de traduction automatique (MT), on peut traiter les traductions de mots comme des sens des mots, une approche qui est beco ming de plus en plus faisable en raison de la disponibilité de grands corpus parallèles multilingues qui peuvent servir de données de formation. L'inventaire fixe des WSD traditionnels réduit la complexité du problème, mais des domaines alternatifs existent… "(Eneko Agirre et Philip Edmonds," Introduction ". Désambiguïsation de Word Sense: algorithmes et applications. Springer, 2007)

Homonymie et désambiguïsation

"Lexical désambiguïsation convient particulièrement aux cas d'homonymie, par exemple, une occurrence de basse doit être mappé sur l'un des éléments lexicaux basse₁ ou basse₂, selon la signification voulue.

"La désambiguïsation lexicale implique un choix cognitif et est une tâche qui inhibe les processus de compréhension. Elle doit être distinguée des processus qui conduisent à une différenciation des sens des mots. La première tâche est accomplie de manière assez fiable également sans beaucoup d'informations contextuelles tandis que la seconde ne l'est pas (cf. Veronis 1998, 2001) .Il a également été démontré que les mots homonymes, qui nécessitent une ambiguïté, ralentissent l'accès lexical, tandis que les mots polysémiques, qui activent une multiplicité de sens des mots, accélèrent l'accès lexical (Rodd ea 2002).

"Cependant, à la fois la modification productive des valeurs sémantiques et le choix simple entre des éléments lexicalement différents ont en commun qu'ils nécessitent des informations non lexicales supplémentaires." (Peter Bosch, «Productivité, polysémie et indexicalité des prédicats». Logique, langage et calcul: 6e Symposium international de Tbilissi sur la logique, le langage et le calcul, éd. par Balder D. ten Cate et Henk W. Zeevat. Springer, 2007)

Désambiguïsation des catégories lexicales et principe de vraisemblance

"Corley et Crocker (2000) présentent un modèle à large couverture de la catégorie lexicale désambiguïsation basé sur Principe de vraisemblance. Plus précisément, ils suggèrent que pour une phrase composée de mots w₀… W_n, le processeur de phrases adopte la séquence de parties de discours la plus probable t₀… T_n. Plus précisément, leur modèle exploite deux probabilités simples: (je) la probabilité conditionnelle du mot w_je étant donné une partie particulière du discours t_je, et (ii) la probabilité de t_je étant donné la partie précédente du discours t_i-1. Au fur et à mesure que chaque mot de la phrase est rencontré, le système lui attribue cette partie du discours t_je, ce qui maximise le produit de ces deux probabilités. Ce modèle capitalise sur l'idée que de nombreuses ambiguïtés syntaxiques ont une base lexicale (MacDonald et al., 1994), comme dans (3):

(3) Les prix / marques d'entrepôt sont moins chers que les autres.

"Ces phrases sont temporairement ambiguës entre une lecture dans laquelle des prix ou fait du est le verbe principal ou une partie d'un nom composé. Après avoir été formé sur un grand corpus, le modèle prédit la partie la plus probable du discours pour des prix, tenant correctement compte du fait que les gens comprennent prix comme un nom mais fait du comme verbe (voir Crocker & Corley, 2002, et les références qui y sont citées). Non seulement le modèle tient compte d'une gamme de préférences de désambiguïsation enracinées dans l'ambiguïté des catégories lexicales, mais il explique également pourquoi, en général, les gens sont très précis dans la résolution de ces ambiguïtés. "(Matthew W. Crocker," Rational Models of Comprehension: Addressing the Paradoxe de la performance. " Psycholinguistique du XXIe siècle: quatre pierres angulaires, éd. par Anne Cutler. Lawrence Erlbaum, 2005)

Sciences humaines