Analiza sentymentu – metoda analizy danych jakościowych. Przykład zastosowania oraz ewaluacja słownika RID i metody klasyfikacji Bayesa w analizie danych jakościowych
Streszczenie
Celem artykułu jest prezentacja podstawowych metod klasyfikacji jakościowych danych tekstowych. Metody te korzystają z osiągnięć wypracowanych w takich obszarach, jak przetwarzanie
języka naturalnego i analiza danych nieustrukturalizowanych. Przedstawiam i porównuję dwie
techniki analityczne stosowane wobec danych tekstowych. Pierwsza to analiza z zastosowaniem
słownika tematycznego. Druga technika oparta jest na idei klasyfikacji Bayesa i opiera się na rozwiązaniu zwanym naiwnym klasyfikatorem Bayesa. Porównuję efektywność dwóch wspomnianych technik analitycznych w ramach analizy sentymentu. Akcentuję rozwiązania mające na
celu zbudowanie trafnego, w kontekście klasyfikacji tekstów, słownika. Porównuję skuteczność
tak zwanych analiz nadzorowanych do skuteczności analiz zautomatyzowanych. Wyniki, które
prezentuję, wzmacniają wniosek, którego treść brzmi: słownik, który w przeszłości uzyskał dobrą
ocenę jako narzędzie klasyfikacyjne, gdy stosowany jest wobec nowego materiału empirycznego,
powinien przejść fazę ewaluacji. Jest to, w proponowanym przeze mnie podejściu, podstawowy
proces adaptacji słownika analitycznego, traktowanego jako narzędzie klasyfikacji tekstów. The purpose of this article is to present the basic methods for classifying text data. These methods make use of achievements earned in areas such as: natural language processing, the analysis of unstructured data. I introduce and compare two analytical techniques applied to text data. The first analysis makes use of thematic vocabulary tool (sentiment analysis). The second
technique uses the idea of Bayesian classification and applies, so-called, naive Bayes algorithm. My comparison goes towards grading the efficiency of use of these two analytical techniques. I emphasize solutions that are to be used to build dictionary accurate for
the task of text classification. Then, I compare supervised classification to automated unsupervised analysis’ effectiveness. These
results reinforce the conclusion that a dictionary which has received good evaluation as a tool for classification should be subjected
to review and modification procedures if is to be applied to new empirical material. Adaptation procedures used for analytical dictionary become, in my proposed approach, the basic step in the methodology of textual data analysis.
Collections