Published online by Cambridge University Press: 10 January 2013
There is currently a widespread interest in indexing and extracting taxonomic information from large text collections. An example is the automatic categorization of informally written medical or psychological diagnoses, followed by the extraction of epidemiological information or even terms and structures needed to formulate guiding questions as an heuristic tool for helping doctors. Vector space models have been successfully used to this end (Lee, Cimino, Zhu, Sable, Shanker, Ely & Yu, 2006; Pakhomov, Buntrock & Chute, 2006). In this study we use a computational model known as Latent Semantic Analysis (LSA) on a diagnostic corpus with the aim of retrieving definitions (in the form of lists of semantic neighbors) of common structures it contains (e.g. “storm phobia”, “dog phobia”) or less common structures that might be formed by logical combinations of categories and diagnostic symptoms (e.g. “gun personality” or “germ personality”). In the quest to bring definitions into line with the meaning of structures and make them in some way representative, various problems commonly arise while recovering content using vector space models. We propose some approaches which bypass these problems, such as Kintsch's (2001) predication algorithm and some corrections to the way lists of neighbors are obtained, which have already been tested on semantic spaces in a non-specific domain (Jorge-Botana, León, Olmos & Hassan-Montero, under review). The results support the idea that the predication algorithm may also be useful for extracting more precise meanings of certain structures from scientific corpora, and that the introduction of some corrections based on vector length may increases its efficiency on non-representative terms.
Actualmente existe un amplio interés en la indexación y extracción de información provenientes de grandes bancos de textos de índole taxonómica. Por ejemplo, la categorización automática de diagnósticos médicos o psicológicos redactados de manera informal y su consiguiente extracción de información epidemiológica o incluso en la extracción de términos y estructuras para la creación de preguntas-guía que asistan de forma heurística a los médicos en la búsqueda de información. Los modelos espacio-vectoriales han sido empleados con éxito en estos propósitos (Lee, Cimino, Zhu, Sable, Shanker, Ely, & Yu, 2006; Pakhomov, Buntrock, & Chute, 2006). En este estudio utilizamos un modelo computacional conocido como Análisis Semántico Latente (LSA) sobre un corpus diagnóstico con la motivación de recuperar definiciones (en forma de listados de vecinos semánticos) de estructuras habituales en ellos (e.g., “fobia a las tormentas”, “fobia a los perros”) o estructuras menos habituales, pero que pueden formarse por combinaciones lógicas de las categorías y síntomas diagnósticos (e.g., “personalidad de la pistola” o “personalidad de los gérmenes”). Para conseguir que las definiciones sean ajustadas al significado de las estructuras, y mínimamente representativas, se discuten algunos problemas que suelen surgir en la recuperación de contenidos con los modelos espacio-vectoriales, y se proponen algunas formas de evitarlos como el algoritmo de predicación de Kintsch (2001) y algunas correcciones en el modo de extraer listados de vecinos ya experimentadas sobre espacios semánticos de dominio general (Jorge-Botana, León, Olmos & Hassan-Montero, in review). Los resultados apoyan la idea de que el algoritmo de predicación puede ser también útil para extraer acepciones más precisas de ciertas estructuras en corpus científicos y que la introducción de algunas correcciones en base a la longitud de vector puede aumentar su eficacia ante términos poco representativos.