சாம்சங் R&D இன்ஸ்டிடியூட் போலந்து WAT 2021 இந்திய மொழி பன்மொழி பணிக்கு சமர்ப்பித்தல்
இந்த கட்டுரை சாம்சங் R&D இன்ஸ்டிடியூட் போலந்தின் WAT 2021 இந்திய மொழி பன்மொழி பணிக்கு சமர்ப்பிப்பதை விவரிக்கிறது. இந்த பணி 10 இந்திய மொழிகள் (பெங்காலி, குஜராத்தி, இந்தி, கன்னடம், மலையாளம், மராத்தி, ஒரியா, பஞ்சாபி, தமிழ் மற்றும் தெலுங்கு) மற்றும் ஆங்கிலம் ஆகியவற்றுக்கு இடையேயான மொழிபெயர்ப்பை உள்ளடக்கியது. நாங்கள் பல நுட்பங்களை இணைத்துள்ளோம்: ஒலிபெயர்ப்பு, வடிகட்டுதல், மொழிமாற்றம், டொமைன் தழுவல், அறிவு-வடிகட்டுதல் மற்றும் இறுதியாக NMT மாதிரிகளின் தொகுப்பு. குறைந்த வள பயிற்சிக்கு ஒரு பயனுள்ள அணுகுமுறையைப் பயன்படுத்தினோம், இது பின்னடைவுகளை முன்கூட்டியே பயிற்றுவித்தல் மற்றும் இணையான கார்போராவில் ட்யூனிங் ஆகியவற்றைக் கொண்டுள்ளது.
இரண்டு வெவ்வேறு டொமைன்-தழுவல் நுட்பங்களை நாங்கள் பரிசோதித்தோம், இது மோனோலிங்குவல் கார்ப்போராவில் பயன்படுத்தப்படும் போது மொழிபெயர்ப்பு தரத்தை கணிசமாக மேம்படுத்தியது. பல மொழிபெயர்ப்பு மாதிரிகளை ஒருங்கிணைப்பதற்கான சிறந்த ஹைப்பர் அளவுருக்களைக் கண்டுபிடிப்பதற்கான ஒரு புதிய அணுகுமுறையை நாங்கள் ஆராய்ந்து பயன்படுத்தினோம். அனைத்து நுட்பங்களும் இணைந்து குறிப்பிடத்தக்க முன்னேற்றத்தைக் கொடுத்தன. அடிப்படை முடிவுகளுக்கு மேல் +8 BLEU வரை முடிவுகளை கொடுத்தன. மனித மதிப்பீட்டின் மூலம் மாடல்களின் தரம் உறுதிப்படுத்தப்பட்டுள்ளது, அங்கு SRPOL மாதிரிகள் கைமுறையாக மதிப்பீடு செய்யப்பட்ட அனைத்து 5 மொழிகளுக்கும் சிறந்த மதிப்பெண்களைப் பெற்றுள்ளன.
References:
- Adam Dobrowolski, Marcin Szymanski, Marcin Chochowski, Pawel Pryzbysz, et. al., 2021
- Diederik P Kingma, Jimmy Lei Ba, et. al., 2014
- Kishore Papineni, Salim Roukos, Todd Ward, Wei Jing Zhu, et. al., 2002
- Armand Joulin, Edouard Grave, Piotr Bojanowski, Tomas Mikolov, et. al., 2017
- Sergey Edunov, Myle Ott, Michael Auli, David Grangier, et. al., 2017