A COMPARISON OF METHODS FOR MODIFYING THE PARTIAL SINGULAR VALUE DECOMPOSITION IN LATENT SEMANTIC INDEXING

Authors

  • Jane E. Tougas Dalhousie University

DOI:

https://doi.org/10.15273/pnsis.v43i2.3645

Abstract

The tremendous size of the Internet and modern databases has made efficient
searching and information retrieval (IR) important. Latent semantic indexing (LSI) is an IR method that represents a dataset as a term-document matrix. LSI uses a matrix factorization method known as the partial singular value decomposition (PSVD). Calculating the PSVD of a large term-document matrix is computationally expensive. In a rapidly expanding environment, a term-document matrix is altered often as new documents and terms are added. Recomputing the PSVD of the term-document matrix each time these slight alterations occur can be prohibitively expensive. Folding-in is one method of adding new documents or terms to an LSI database; updating the PSVD of the existing LSI database is another. The folding-in method is computationally inexpensive, but may cause deterioration in the accuracy of the PSVD. The PSVD-updating method is computationally more expensive than the folding-in
method, but better maintains the accuracy of the PSVD. Folding-up is a new method that combines folding-in and PSVD-updating. Folding-up is faster than either recomputing the PSVD or PSVD-updating, but avoids the degradation in the PSVD that can occur when the folding-in method is used on its own.

La taille incroyable d‘Internet et des bases de données modernes a fait en sorte
que la recherche efficace d‘informations est maintenant importante. L‘indexation par sémantique latente (ISL) est une méthode de recherche d‘informations qui représente un jeu de données comme une matrice document-terme. L‘ISL comprend l‘utilisation d‘une méthode de factorisation matricielle connue sous le nom de décomposition partielle en valeurs singulières (DPVS). Le calcul de la DPVS d‘une grande matrice document-terme est coûteux sur le plan des calculs. Dans un environnement en expansion rapide, une matrice document-terme est souvent modifiée à  mesure que de nouveaux documents et termes sont ajoutés. Le recalcul de la DPVS de la matrice document-terme chaque fois qu‘une légère modification est apportée peut devenir très coûteux. L‘intégration (folding-in) est une méthode pour ajouter de nouveaux documents ou termes dans une base de donnée ISL, et la mise à  jour de la DPVS de la base de données ISL existante en est une autre. La méthode d‘intégration est peu coûteuse sur le plan des calculs, mais elle peut entraîner une perte d‘exactitude de la DPVS. La méthode de mise à  jour de la DPVS est plus coûteuse sur le plan des calculs, mais elle permet de mieux préserver l‘exactitude de la DPVS. La méthode d‘intégration et de mise à  jour (folding-up) est une nouvelle méthode qui combine l‘intégration et la mise à  jour de la DPVS. Cette méthode est plus rapide que le recalcul ou la mise à  jour de la DPVS, mais elle permet d‘éviter la perte d‘exactitude de la DPVS qui peut survenir quand seule la méthode d‘intégration est utilisée.

Author Biography

Jane E. Tougas, Dalhousie University

Facultyof Computer Science
Dalhousie University
6050 University Avenue
Halifax, Nova Scotia B3H 1W5

2005 NSIS Graduate Student
Special Prize for High Merit

Downloads

Issue

Section

Contributions