Hate Speech Detection Erick Ten Hag Manchester United Twitter

DIMAS DAFFA ERNANDA

A11.2022.14079

STKI A11.4701

Streamlit https://hatedetection-eth.streamlit.app/

Deskripsi Proyek

Proyek ini bertujuan untuk mendeteksi ujaran kebencian (hate speech) pada teks tweet Erick Ten Hag di Twitter menggunakan metode Logistic Regression. Dataset telah melalui berbagai tahapan preprocessing, oversampling, dan vektorisasi sebelum digunakan untuk melatih model.

Struktur File

Crawl_Twitter_ETH.ipynb
- File ini digunakan untuk mengambil data mentah dari Twitter.
- Data yang dihasilkan disimpan dalam file TweethateETHMU.csv.
Oversampling.ipynb
- File ini melakukan oversampling pada dataset TweethateETHMU.csv untuk menangani ketidakseimbangan kelas.
- Dataset hasil oversampling disimpan dalam file Oversampled_Tweet_Dataset.csv.
AugmentasiDataset.ipynb
- Notebook ini digunakan untuk melakukan augmentasi data dengan fokus pada menambah variasi teks untuk kelas hate speech.
- Proses augmentasi dilakukan dengan memanfaatkan dataset Profanity in English, sebuah dataset yang berisi daftar kata-kata kasar atau ujaran kebencian.
- Dataset hasil augmentasi ini bertujuan untuk memperkuat pelatihan model dalam mendeteksi hate speech dengan menambah data pada kelas yang kurang seimbang.
- Hasil augmentasi dapat digunakan untuk menggantikan atau melengkapi dataset yang telah melalui proses oversampling sebelumnya.
LogisticRegHateDetection.ipynb
- File ini melatih model Logistic Regression menggunakan dataset hasil oversampling dan augmented dataset.
- Model yang telah dilatih disimpan dalam file logistic_regression_model.pkl.
TestModel.ipynb
- File ini digunakan untuk menguji model Logistic Regression pada teks baru.
- Model yang diuji diambil dari file logistic_regression_model.pkl.
streamlit.py
- File ini berisi antarmuka web sederhana menggunakan Streamlit untuk mendeteksi ujaran kebencian berdasarkan model yang telah dilatih.
- Menggunakan model dan vektorisasi yang disimpan dalam file logistic_reg_model.pkl dan tfidf_vectorizer.pkl.

Cara Menjalankan Proyek

Prasyarat

Python (versi >= 3.7)
Instalasi pustaka yang diperlukan:
```
pip install -r requirements.txt
```

Langkah-langkah

Crawl_Twitter_ETH.ipynb
- File ini digunakan untuk mengambil data mentah dari Twitter.
- Data yang dihasilkan disimpan dalam file TweethateETHMU.csv.
Oversampling.ipynb
- File ini melakukan oversampling pada dataset mentah untuk menangani ketidakseimbangan kelas.
- Dataset hasil oversampling disimpan dalam file dataset/Oversampled_Tweet_Dataset.csv.
AugmentasiDataset.ipynb
- Notebook ini digunakan untuk melakukan augmentasi data pada dataset oversampled guna menambah variasi pada kelas hate speech.
- Augmentasi menggunakan dataset dataset/profanity_en.csv.
- Dataset hasil augmentasi disimpan dalam file dataset/augmented_dataset_with_profanities.csv.
LogisticRegHateDetection.ipynb
- File ini melatih model Logistic Regression menggunakan dataset hasil augmentasi.
- Model yang telah dilatih disimpan dalam file logistic_reg_model.pkl.
- Vektorisasi teks disimpan dalam file tfidf_vectorizer.pkl.
TestModel.ipynb
- File ini digunakan untuk menguji model Logistic Regression pada teks baru.
streamlit.py
- File ini menyediakan antarmuka web berbasis Streamlit untuk mendeteksi hate speech.
- Menggunakan model dan vektorisasi yang telah disimpan untuk memprediksi input pengguna.

Hasil Evaluasi Model

Diskusi Hasil

Kekuatan Model:
- Logistic Regression memberikan performa yang baik untuk tugas deteksi hate speech, terutama dalam mendeteksi label mayoritas (hate).
- Dengan preprocessing yang baik (pembersihan teks dan TF-IDF vectorization), model dapat menangkap pola-pola ujaran kebencian dari teks secara efektif.
Kelemahan Model:
- Meskipun oversampling membantu menyeimbangkan dataset, model terkadang kesulitan mendeteksi no-hate dengan struktur bahasa yang kompleks atau ambigu.
- Akurasi untuk kelas minoritas (no-hate) dapat ditingkatkan lebih lanjut.
Potensi Pengembangan:
- Eksplorasi model lain seperti Support Vector Machine (SVM) atau Neural Networks dapat meningkatkan kemampuan model dalam mendeteksi hate speech.
- Menambahkan lebih banyak data untuk pelatihan, terutama dari sumber yang bervariasi, dapat membantu model belajar lebih baik.
Penggunaan Nyata:
- Model ini dapat digunakan sebagai dasar untuk sistem moderasi konten di media sosial untuk memfilter ujaran kebencian secara otomatis.
- Integrasi dengan platform moderasi dapat membantu dalam menjaga lingkungan online yang lebih aman.

Penyimpanan Model

Model: logistic_reg_model.pkl
TF-IDF Vectorizer: tfidf_vectorizer.pkl

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Hate Speech Detection Erick Ten Hag Manchester United Twitter

DIMAS DAFFA ERNANDA

A11.2022.14079

STKI A11.4701

Streamlit https://hatedetection-eth.streamlit.app/

Deskripsi Proyek

Struktur File

Cara Menjalankan Proyek

Prasyarat

Langkah-langkah

Hasil Evaluasi Model

Diskusi Hasil

Penyimpanan Model

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
__pycache__		__pycache__
dataset		dataset
.gitignore		.gitignore
AugmentasiDataset.ipynb		AugmentasiDataset.ipynb
Crawl_Twitter_ETH.ipynb		Crawl_Twitter_ETH.ipynb
LogisticRegHateDetection.ipynb		LogisticRegHateDetection.ipynb
Oversampling.ipynb		Oversampling.ipynb
PreprocessHateSpeechDetectionETH.ipynb		PreprocessHateSpeechDetectionETH.ipynb
STKI-A112214079-Sentimen_Hate_Speech_ETHMU.pdf		STKI-A112214079-Sentimen_Hate_Speech_ETHMU.pdf
TestLainLogisticReg.ipynb		TestLainLogisticReg.ipynb
TestModel.ipynb		TestModel.ipynb
TweethateETHMU.csv		TweethateETHMU.csv
image-1.png		image-1.png
image.png		image.png
logistic_reg_model.pkl		logistic_reg_model.pkl
readme.md		readme.md
requirements.txt		requirements.txt
streamlit.py		streamlit.py
tfidf_vectorizer.pkl		tfidf_vectorizer.pkl

Folders and files

Latest commit

History

Repository files navigation

Hate Speech Detection Erick Ten Hag Manchester United Twitter

DIMAS DAFFA ERNANDA

A11.2022.14079

STKI A11.4701

Streamlit https://hatedetection-eth.streamlit.app/

Deskripsi Proyek

Struktur File

Cara Menjalankan Proyek

Prasyarat

Langkah-langkah

Hasil Evaluasi Model

Diskusi Hasil

Penyimpanan Model

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages