சாம்சங் R&D இன்ஸ்டிடியூட் போலந்து WAT 2021 இந்திய மொழி பன்மொழி பணிக்கு சமர்ப்பித்தல்

இந்த கட்டுரை சாம்சங் R&D இன்ஸ்டிடியூட் போலந்தின் WAT 2021 இந்திய மொழி பன்மொழி பணிக்கு சமர்ப்பிப்பதை விவரிக்கிறது. இந்த பணி 10 இந்திய மொழிகள் (பெங்காலி, குஜராத்தி, இந்தி, கன்னடம், மலையாளம், மராத்தி, ஒரியா, பஞ்சாபி, தமிழ் மற்றும் தெலுங்கு) மற்றும் ஆங்கிலம் ஆகியவற்றுக்கு இடையேயான மொழிபெயர்ப்பை உள்ளடக்கியது. நாங்கள் பல நுட்பங்களை இணைத்துள்ளோம்: ஒலிபெயர்ப்பு, வடிகட்டுதல்,  மொழிமாற்றம், டொமைன் தழுவல், அறிவு-வடிகட்டுதல் மற்றும் இறுதியாக NMT மாதிரிகளின் தொகுப்பு. குறைந்த வள பயிற்சிக்கு ஒரு பயனுள்ள அணுகுமுறையைப் பயன்படுத்தினோம், இது பின்னடைவுகளை முன்கூட்டியே பயிற்றுவித்தல் மற்றும் இணையான கார்போராவில் ட்யூனிங் ஆகியவற்றைக் கொண்டுள்ளது.

இரண்டு வெவ்வேறு டொமைன்-தழுவல் நுட்பங்களை நாங்கள் பரிசோதித்தோம், இது மோனோலிங்குவல் கார்ப்போராவில் பயன்படுத்தப்படும் போது மொழிபெயர்ப்பு தரத்தை கணிசமாக மேம்படுத்தியது. பல மொழிபெயர்ப்பு மாதிரிகளை ஒருங்கிணைப்பதற்கான சிறந்த ஹைப்பர் அளவுருக்களைக் கண்டுபிடிப்பதற்கான ஒரு புதிய அணுகுமுறையை நாங்கள் ஆராய்ந்து பயன்படுத்தினோம். அனைத்து நுட்பங்களும் இணைந்து குறிப்பிடத்தக்க முன்னேற்றத்தைக் கொடுத்தன. அடிப்படை முடிவுகளுக்கு மேல் +8 BLEU வரை  முடிவுகளை கொடுத்தன. மனித மதிப்பீட்டின் மூலம் மாடல்களின் தரம் உறுதிப்படுத்தப்பட்டுள்ளது, அங்கு SRPOL  மாதிரிகள் கைமுறையாக மதிப்பீடு செய்யப்பட்ட அனைத்து 5 மொழிகளுக்கும் சிறந்த மதிப்பெண்களைப் பெற்றுள்ளன.

References:

Leave a Reply

Optimized by Optimole
WP Twitter Auto Publish Powered By : XYZScripts.com