Modelowanie tematyczne w socjologii na przykładzie dobrobytu społecznego: wyzwania metodologiczne i komponent ludzki
Abstract
Considering the dynamically evolving realms of social sciences influenced by network technologies and digital humanities, it is crucial to examine the adequacy of sociological data analysis methodologies in these new conditions. The availability of extensive digitized datasets not only poses a challenge to “classical” analysis methods developed under different circumstances and for different purposes, but also raises the question of whether the traditional demarcation between quantitative and qualitative methods, marked by a clear boundary, remains relevant in the era of Big Data. In this paper, based on topic modeling utilising Latent Dirichlet Allocation (LDA), we argue that quantitative methods (probabilistic statistical models) are not merely complementary or a starting point for qualitative analyses (the standard approach), but, rather, constitute an integral part of them. This thesis is illustrated through a case study involving the identification of themes within a dataset of 17,278 articles published in Web-of-Science-indexed journals between 1992 and 2020, focusing on social welfare. This empirical case study also serves to formulate meta-theoretical observations regarding the “cohesion” of quantitative and qualitative methods in the context of machine learning and natural language processing. Biorąc pod uwagę dynamicznie rozwijające się obszary nauk społecznych uwarunkowanych technologiami sieciowymi oraz humanistyki cyfrowej (ang. Digital Humanities), warto przeanalizować adekwatność socjologicznych metodologii analizy danych w tych nowych warunkach. Dostępność dużych zbiorów zdigitalizowanych danych stanowi nie tylko wyzwanie dla „klasycznych” metod analizy, które opracowane zostały w innych warunkach i do innych celów. Jeszcze ważniejsza kwestia dotyczy tego, czy podział na metody ilościowe i jakościowe, między którymi istnieje wyraźna linia demarkacyjna, ma sens w obliczu Big Data. W niniejszym artykule, na podstawie modelowania tematycznego (ang. topic modeling), opartego na LDA (ang. Latent Dirichlet Allocation), autorzy stawiają tezę, że ilościowe metody (probabilistyczne modele statystyczne) nie stanowią uzupełnienia lub punktu wyjścia do analiz jakościowych (standardowe podejście), lecz ich integralną część. Teza ta zostanie zilustrowana przykładem wyznaczenia tematów w obrębie zbioru 17 278 artykułów na temat dobrobytu społecznego, opublikowanych w czasopismach indeksowanych w bazie Web of Science w latach 1992–2020. To empiryczne studium przypadku posłuży także do sformułowania uwag metateoretycznych na temat „kohezji” metod ilościowych i jakościowych w perspektywie uczenia maszynowego (ang. machine learning) i przetwarzania języka naturalnego (ang. natural language processing – NLP).
Collections