Czy komputer rozpozna hejtera? Wykorzystanie uczenia maszynowego (ML) w jakościowej analizie danych
Abstract
Celem artykułu jest przedstawienie procesu automatyzacji kodowania tekstów pochodzących z mediów społecznościowych. Wdrożenie tego procesu pozwala na ilościowe potraktowanie jakościowych
metod analizy treści. W efekcie otrzymujemy możliwość przeprowadzenia analizy na korpusach liczących setki tysięcy tekstów, które są kodowane w oparciu o ich znaczenia. Jest to możliwe dzięki wykorzystaniu algorytmów uczenia maszynowego (ML).
Omawianą metodę kodowania prezentujemy na przykładzie projektu oznaczania „mowy nienawiści”
w tekstach pochodzących z polskich forów internetowych. Kluczowym problemem jest precyzyjna
konceptualizacja i operacjonalizacja tej kategorii. Pozwala to na przygotowanie dokładnej instrukcji
kodowej oraz przeprowadzenie treningu zespołu kodującego. Efektem jest podwyższenie współczynnika zgodności kodujących. Oznaczone teksty zostaną wykorzystane jako dane treningowe dla metod
automatycznej kategoryzacji opartych o algorytmy uczenia maszynowego. W dalszej części artykułu
opisujemy zastosowane metody kodowania automatycznego. Tekst kończy podsumowanie wskazujące
na czynniki, które są kluczowe dla procesu badawczego wykorzystującego uczenie maszynowe. The purpose of this article is to present the process of automatic tagging of hate speech in social media. The implementation
of this process allows for quantitative treatment of qualitative methods: analysis on the corpora of hundreds thousands of texts based
on their meaning. The process is possible through algorithms of machine learning (ML).
The example of the hate speech designation project in texts from Polish online forums is presented. The key issue is the precise of
conceptualization and operationalization of category “hate speech.” This allows for preparing specific instructions and conducting the
training code unit. As a result we get higher rates of inter-coder agreement. Marked texts will be used as training data for automated
categorization methods based on ML algorithms. Then we describe the course of machine coding. This article also seeks to establish
problems associated with automatic coding of hate speech and propose solutions. In summary, we point the factors that are crucial to
the research process that uses machine learning.
Collections