யூடியூப் கருத்துகள் மற்றும் இடுகைகளுக்கான புண்படுத்தும் மொழிகளை அடையாளம் காணுதல்
சமூக ஊடக தளங்களில் புண்படுத்தும் படியான கருத்துகளை கண்டறிதல் என்பது கடந்த ஆண்டுகளில் தீவிரமான ஆராய்ச்சியாகவும் விவாதமாகவும் இருந்து வருகிறது. ஆங்கிலத்தை பூர்விகமாக அல்லாதா பெரும்பாலான நாடுகளில், சமூக ஊடக பயனர்கள் தங்கள் இடுகைகள்/கருத்துகளில் பெரும்பாலும் குறியீடு கலந்த உரை வடிவத்தைப் பயன்படுத்துகின்றனர். இது அதன் கருத்து உள்ளடக்கத்தை அடையாளம் காணும் பணிகளுக்கு பெரும் சவாலாக உள்ளது. இது குறித்து Charangan Vasantharajan, et. al., (2022) அவர்களின் ஆய்வு, பல ஆழமான கற்றலைப் பயன்படுத்தி விரிவான சோதனைகளை வழங்குகிறது. YouTube-இல் புண்படுத்தும் உள்ளடக்கத்தைக் கண்டறிய கற்றல் மாதிரிகளை வழங்குகிறது. BERT, DistilBERT மற்றும் XLM-RoBERTa போன்ற பன்மொழி டிரான்ஸ்பார்மர் வலையமைப்புகளை நன்றாகச் சரிசெய்தல் மற்றும் ஒருங்கிணைத்தல் ஆகியவற்றிலிருந்து சிறந்த பலன்களைப் பெற, தேர்ந்தெடுக்கப்பட்ட மொழிபெயர்ப்பு மற்றும் ஒலிபெயர்ப்பு நுட்பங்களின் புதிய மற்றும் நெகிழ்வான அணுகுமுறையை இந்த ஆய்வு முன்மொழிகிறது. இந்த பணிக்கு ULMFiT சிறந்த மாதிரி என்று சோதனை முடிவுகள் காட்டுகின்றன. DistilBERT மற்றும் XLM-RoBERTa மற்றும் கலப்பின ஆழமான கற்றல் மாதிரிகள் போன்ற பிரபலமான பரிமாற்ற கற்றல் மாதிரிகளுக்குப் பதிலாக, இந்த தமிழ் குறியீடு-கலவை தரவுத்தொகுப்பிற்கான ULMFiT மற்றும் mBERT-BiLSTM ஆகியவை சிறந்த செயல்திறன் கொண்ட மாதிரிகளாகும். முன்மொழியப்பட்ட மாதிரியான ULMFiT மற்றும் mBERT-BiLSTM ஆகியவை நல்ல பலனைத் தருகிறது மற்றும் குறைந்த வளம் கொண்ட மொழிகளில் தாக்குதல் பேச்சு அடையாளத்தை உறுதிப்படுத்துகிறது.
References:
- Vasantharajan, C., & Thayasivam, U. (2022). Towards Offensive Language Identification for Tamil Code-Mixed YouTube Comments and Posts. SN Computer Science, 3(1), 1-13.
- Ranasinghe, T., Gupte, S., Zampieri, M., & Nwogu, I. (2020). Wlv-rit at hasoc-dravidian-codemix-fire2020: Offensive language identification in code-switched youtube comments. arXiv preprint arXiv:2011.00559.
- Mandl, T., Modha, S., Kumar M, A., & Chakravarthi, B. R. (2020, December). Overview of the hasoc track at fire 2020: Hate speech and offensive language identification in tamil, malayalam, hindi, english and german. In Forum for Information Retrieval Evaluation(pp. 29-32).
- Chakravarthi, B. R., Anand Kumar M, McCrae, J. P., Premjith, B., Soman, K. P., & Mandl, T. (2020, December). Overview of the track on HASOC-Offensive Language Identification-DravidianCodeMix. In FIRE (Working Notes)(pp. 112-120).
- Chakravarthi, B. R., Chinnappa, D., Priyadharshini, R., Madasamy, A. K., Sivanesan, S., Navaneethakrishnan, S. C., & Kumaresan, P. K. (2021). Developing Successful Shared Tasks on Offensive Language Identification for Dravidian Languages. arXiv preprint arXiv:2111.03375.