Pokaż uproszczony rekord

dc.contributor.authorTroszyński, Marek
dc.contributor.authorWawer, Aleksander
dc.date.accessioned2021-02-09T15:39:44Z
dc.date.available2021-02-09T15:39:44Z
dc.date.issued2017
dc.identifier.citationTroszyński Marek, Wawer Aleksander (2017) Czy komputer rozpozna hejtera? Wykorzystanie uczenia maszynowego (ML) w jakościowej analizie danych. „Przegląd Socjologii Jakościowej”, t. 13, nr 2, s. 62‒80 [dostęp dzień, miesiąc, rok]. Dostępny w Internecie: ‹www.przegladsocjologiijakosciowej.org›.pl_PL
dc.identifier.urihttp://hdl.handle.net/11089/33365
dc.description.abstractCelem artykułu jest przedstawienie procesu automatyzacji kodowania tekstów pochodzących z mediów społecznościowych. Wdrożenie tego procesu pozwala na ilościowe potraktowanie jakościowych metod analizy treści. W efekcie otrzymujemy możliwość przeprowadzenia analizy na korpusach liczących setki tysięcy tekstów, które są kodowane w oparciu o ich znaczenia. Jest to możliwe dzięki wykorzystaniu algorytmów uczenia maszynowego (ML). Omawianą metodę kodowania prezentujemy na przykładzie projektu oznaczania „mowy nienawiści” w tekstach pochodzących z polskich forów internetowych. Kluczowym problemem jest precyzyjna konceptualizacja i operacjonalizacja tej kategorii. Pozwala to na przygotowanie dokładnej instrukcji kodowej oraz przeprowadzenie treningu zespołu kodującego. Efektem jest podwyższenie współczynnika zgodności kodujących. Oznaczone teksty zostaną wykorzystane jako dane treningowe dla metod automatycznej kategoryzacji opartych o algorytmy uczenia maszynowego. W dalszej części artykułu opisujemy zastosowane metody kodowania automatycznego. Tekst kończy podsumowanie wskazujące na czynniki, które są kluczowe dla procesu badawczego wykorzystującego uczenie maszynowe.pl_PL
dc.description.abstractThe purpose of this article is to present the process of automatic tagging of hate speech in social media. The implementation of this process allows for quantitative treatment of qualitative methods: analysis on the corpora of hundreds thousands of texts based on their meaning. The process is possible through algorithms of machine learning (ML). The example of the hate speech designation project in texts from Polish online forums is presented. The key issue is the precise of conceptualization and operationalization of category “hate speech.” This allows for preparing specific instructions and conducting the training code unit. As a result we get higher rates of inter-coder agreement. Marked texts will be used as training data for automated categorization methods based on ML algorithms. Then we describe the course of machine coding. This article also seeks to establish problems associated with automatic coding of hate speech and propose solutions. In summary, we point the factors that are crucial to the research process that uses machine learning.pl_PL
dc.language.isoplpl_PL
dc.publisherUniwersytet Łódzkipl_PL
dc.relation.ispartofseriesPrzegląd Socjologii Jakościowej;2
dc.subjectjakościowa analiza treścipl_PL
dc.subjectuczenie maszynowepl_PL
dc.subjectmowa nienawiścipl_PL
dc.subjectzgodność kodującychpl_PL
dc.subjectmachine learningpl_PL
dc.subjectqualitative data analysispl_PL
dc.subjecthate speechpl_PL
dc.subjectintercoder agreementpl_PL
dc.titleCzy komputer rozpozna hejtera? Wykorzystanie uczenia maszynowego (ML) w jakościowej analizie danychpl_PL
dc.title.alternativeCan a Computer Recognize Hate Speech? Machine Learning (ML) in Qualitative Data Analysispl_PL
dc.typeArticlepl_PL
dc.page.number62‒80pl_PL
dc.contributor.authorAffiliationCollegium Civitaspl_PL
dc.contributor.authorAffiliationInstytut Podstaw Informatyki PANpl_PL
dc.contributor.authorBiographicalnoteMarek Troszyński, doktor socjologii, kierownik Obserwatorium Cywilizacji Cyfrowej Collegium Civitas, adiunkt tamże. Zainteresowania naukowe: socjologia kultury, wykorzystanie metod automatycznej analizy języka naturalnego (NLP) w socjologicznych badaniach nad dyskursem. Adres kontaktowy: Collegium Civitas Plac Defilad 1 00-901 Warszawapl_PL
dc.contributor.authorBiographicalnoteAleksander Wawer, doktor nauk technicznych w kierunku informatyka, absolwent socjologii i informatyki. Adiunkt w Zespole Inżynierii Lingwistycznej w Instytucie Podstaw Informatyki PAN. Zainteresowania naukowe obejmują wybrane problemy przetwarzania języka naturalnego, w szczególności analizę wydźwięku, ekstrakcję relacji oraz głębokie uczenie maszynowe. Adres kontaktowy: Instytut Podstaw Informatyki PAN ul. Jana Kazimierza 5, 01-248 Warszawapl_PL
dc.referencesBishop Christopher (2006) Pattern Recognition and Machine Learning. Secaucus: Springer-Verlag.pl_PL
dc.referencesBreiman Leon (2001) Random Forests. „Machine Learning”, vol. 45, no. 1, s. 5‒32.pl_PL
dc.referencesBychawska-Siniarska Dominika, Gliszczyńska-Grabias Aleksandra (2016) W stronę sieci tolerancji. Prawnomiędzynarodowe instrumenty walki z mową nienawiści [dostęp 14 maja 2017 r.]. Dostępny w Internecie ‹http://www.siectolerancji.pl/aktualnosc/ w-strone-sieci-tolerancji-publikacja-w-module-prawnym›.pl_PL
dc.referencesCortes Corinna, Vapnik Vladimir (1995) Support-Vector Networks. „Machine Learning”, vol. 20, no. 3, s. 273–297.pl_PL
dc.referencesGutierrez Dario i in. (2016) Literal and Metaphorical Senses in Compositional Distributional Semantic Models. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, (ACL) 2016, August 7-12, 2016, Berlin, Germany, vol. 1 [dostęp 14 maja 2017 r.]. Dostępny w Internecie: ‹http:// aclweb.org/anthology/P/P16/P16-1018.pdf›.pl_PL
dc.referencesHeinze Eric (2016) Hate Speech and Democratic Citizenship. Oxford: Oxford University Press.pl_PL
dc.referencesJockers Matthew (2013) Macroanalysis: Digital Methods and Literary History. Champaign: University of Illinois Press.pl_PL
dc.referencesKrejtz Izabela, Krejtz Krzysztof (2005) Wybrane statystyki zgodności między sędziami w analizie treści [w:] Katarzyna Stemplewska- -Żakowicz, Krzysztof Krejtz, red., Wywiad psychologiczny. Wywiad jako postępowanie badawcze. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego, s. 231–249.pl_PL
dc.referencesKrippendorff Klaus (1980) Content Analysis: An Introduction to Its Methodology. Newbury Park, CA: Sagepl_PL
dc.referencesLafferty John D., McCallum Andrew, Pereira Fernando C. N. (2001) Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of the Eighteenth International Conference on Machine Learning (ICML ‘01), San Francisco, USA, Morgan Kaufmann Publishers Inc., s. 282–289.pl_PL
dc.referencesLample Guillaume i in. (2016) Neural Architectures for Named Entity Recognition. Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics. The Association for Computational Linguistics, s. 260–270.pl_PL
dc.referencesLinde-Usiekniewicz Jadwiga (2015) Teoria relewancji jako narzędzie opisu mowy nienawiści. „Studia Pragmalingwistyczne”, t. 7, s. 53–68.pl_PL
dc.referencesLombard Matthew, Snyder-Duch Jennifer, Bracken Cheryl Campanella (2004) A Call for Standardization in Content Analysis Reliability. „Human Communication Research”, vol. 30, s. 434–437.pl_PL
dc.referencesŁodziński Sławomir (2003) Problemy dyskryminacji osób należących do mniejszości narodowych i etnicznych w Polsce. Warszawa: Kancelaria Sejmu, Biuro Studiów i Ekspertyz.pl_PL
dc.referencesManning Christopher D. i in. (2014) The Stanford CoreNLP Natural Language Processing Toolkit. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. The Association for Computational Linguistics. ACL, System Demonstrationspl_PL
dc.referencesMoretti Franco (2013) Distant Reading. London: Verso Books.pl_PL
dc.referencesNijakowski Lech (2008) Mowa nienawiści w świetle teorii dyskursu [w:] Anna Horolets, red., Analiza dyskursu w socjologii i dla socjologii. Warszawa: Wydawnictwo Adam Marszałek, s. 113–133.pl_PL
dc.referencesOgrodniczuk Maciej, Lenart Michał (2013) A Multi-Purpose Online Toolset for NLP Applications. Proceedings of the 18th International Conference on Applications of Natural Language to Information Systems, vol. 7934 of Lecture Notes in Computer Science, Springer-Verlag. Springer Berlin Heidelberg, s. 392–395.pl_PL
dc.referencesPedregosa Fabian i in. (2011) Scikit-Learn: Machine Learning in Python. „Journal of Machine Learning Research”, vol. 12, s. 2825–2830.pl_PL
dc.referencesSiwicki Maciej (2011) Nielegalna i szkodliwa treść w Internecie. Aspekty prawnokarne. Warszawa: Oficyna Wolters Kluwer.pl_PL
dc.referencesSperber Dan, Wilson Deidre (2011) Relewancja. Komunikacja i poznanie. Przełożyły Magdalena Charzyńska i n.. Kraków: Wydawnictwo Tertium.pl_PL
dc.referencesStone Philip J. i in. (1966) The General Inquirer: A Computer Approach to Content Analysis. Cambridge: MIT Press.pl_PL
dc.referencesTroszyński Marek (2015) Hate Speech. Towards a Research Standard [w:] Jacek Sobczak, Jędrzej Skrzypczak, red., Professionalism in Journalism in the Era of New Media. Berlin: Logos, s. 199–208.pl_PL
dc.referencesWawer Aleksander, Rogozińska Dominika (2012) How much supervision? Corpus-based lexeme sentiment estimation. IEEE 12th International Conference on Data Mining Workshops (SENTIRE 2012), Los Alamitos, USA, IEEE Computer Society, s. 724–730.pl_PL
dc.referencesWieruszewski Roman i in., red., (2010) Mowa nienawiści a wolność słowa. Aspekty prawne i społeczne. Warszawa: Wolters Kluwer.pl_PL
dc.contributor.authorEmailmtroszynski@civitas.edu.plpl_PL
dc.contributor.authorEmailaxw@ipipan.waw.plpl_PL
dc.relation.volume13pl_PL
dc.disciplinenauki socjologicznepl_PL


Pliki tej pozycji

Thumbnail

Pozycja umieszczona jest w następujących kolekcjach

Pokaż uproszczony rekord