‍ ⚡️ دانلود رایگان #حافظه_ترجمه

مترجم شدن

‍ ⚡️ دانلود رایگان #حافظه_ترجمه

۱. پیکرهٔ موازی انگلیسی‌فارسی دانشگاه تهران (TEP)

این پیکره، که در آزمایشگاه پردازش زبان طبیعی دانشگاه تهران تهیه شده، مجموعه‌ای است حاوی بیش از ششصدهزار جملهٔ هم‌ترازشده انگلیسی و فارسی که از زیرنویس ۱۶۰۰ فیلم استخراج شده‌اند.

در پیوست این مطلب (یا از اینجا) می‌توانید این پیکره را به‌صورت حافظهٔ ترجمه دانلود کنید.
در این نسخه خطاهایی که مانع ایمپورت آن به نرم‌افزارهای مترجم‌یار (ترادوس، وردفست، ممکیو، میت‌کت، امگاتی و...) می‌شد برطرف کردیم و همچنین فاصلهٔ قبل از نقطه و کاما برداشته شده است.

حافظهٔ ترجمه فارسی‌انگلیسی از پیکره‌های دیگر:
2. CCMatrix v1
۲۴.۵ میلیون جمله، استخراج شده از وب، حجم ۲ گیگ

3. NLLB v1
۲۴.۵ میلیون جمله، ایجاد شده با متادیتا، حجم ۲ گیگ

4. OpenSubtitles v2018
۵.۵ میلیون جمله، برگرفته از فیلم‌های ترجمه‌شده، حجم ۲۰۰ مگ

5. CCAligned v1
۵.۲ میلیون جمله، استخراج‌شده از اسناد تحت وب، حجم ۴۵۰ مگ

6. LinguaTools-WikiTitles v2014
۳.۵ میلیون جمله، برگرفته از عنوان مقاله‌های ویکی‌پدیا، حجم ۴۰ مگ

7. XLEnt v1.2
۲ میلیون جمله، استخراج‌شده از وب، حجم ۴۵ مگ

8. WikiMatrix v1
۳۰۰ هزار جمله، استخراج‌شده از ویکی‌مدیا، حجم ۳۷ مگ

9. Tanzil v1
۱ میلیون جمله، برگرفته از ترجمهٔ قرآن، پروژهٔ تنزیل، حجم ۱۲۹ مگ

10. MIZAN v1
۱ میلیون جمله، استخراج‌شده از متون ادبی کلاسیک، حجم ۶۳ مگ

11. GNOME v1
۸ هزار جمله، برگرفته از فایل‌های بومی‌شدهٔ گنوم، حجم ۲۰۰ کیلوبایت

12. wikimedia v20230407
۳۰۰ هزار جمله، استخراج‌شده از مقاله‌های ویکی‌پدیا، حجم ۷۰ مگ

13. TED2020 v1
۳۰۰ هزار جمله، استخراج‌شده از زیرنویس‌های تد ۲۰۲۰، حجم ۲۶ مگ

14. QED v2.0a
۱۵ هزار جمله، برگرفته از زیرنویس‌های آموزشی آمارا، حجم ۸ مگ

15. NeuLab-TedTalks v1
۲۰۰ هزار جمله، برگرفته از زیرنویس‌های تد از طریق phontron.com، حجم ۱۴ مگ

16. KDE4 v2
۷۶ هزار جمله، استخراج‌شده از فایل‌های بومی‌شدهٔ کی‌دی‌ای، حجم ۲ مگ

17. Wikipedia v1.0
۹۵ هزار جمله، برگرفته از مقاله‌های ویکی‌پدیا، حجم ۱۰ مگ

18. TED2013 v1.1
۸۰ هزار جمله، استخراج‌شده از زیرنویس‌های تد ۲۰۱۳، حجم ۶.۸ مگ

19. infopankki v1
۱۵ هزار جمله، برگرفته از اوپن دیتا، حجم ۸۶۰ کیلوبایت

20. GlobalVoices v2018q4
۲۰ هزار جمله، استخراج‌شده از اخبار گلوبال ویسس، حجم ۱ مگ

21. tico-19 v2020-10-28
۳ هزار جمله، برگرفته از حافظه‌های ترجمه کووید-۱۹، حجم ۳۸۳ کلیوبابت

22. ELRC_2922 v1
۲ هزار جمله، استخراج‌شده از پایگاه سلامت ویکی‌پدیا، حجم ۲۵۰ کیلوبایت

23. ELRC-3078-wikipedia_health v1
۲ هزار جمله، استخراج‌شده از پایگاه سلامت ویکی‌پدیا، حجم ۲۵۰ کیلوبایت

24. ELRC-wikipedia_health v1
۲ هزار جمله، استخراج‌شده از پایگاه سلامت ویکی‌پدیا، حجم ۲۵۰ کیلوبایت

✨منبع: opus - the open parallel corpus

پیکرهٔ موازی و حافظهٔ ترجمهٔ زبان‌های دیگر را هم می‌توانید از همین منبع پیدا و دانلود کنید.

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ

☕️ به شبکه‌های اجتماعی «مترجم‌شدن» بپیوندید:
کانال تلگرام | گروه تلگرام | اینستاگرام

▪️motarjemshodan | مترجم‌شدن 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

attach 📎

❤18🤩8🙏8👍3👏3🔥2⚡1

www.group-telegram.com/us/motarjemshodan.com/492

8.71K viewsedited Jan 26, 2024 at 16:08

group-telegram.com/motarjemshodan/492

Create: 2024-01-26
Last Update: 2025-08-24 04:21:23

Telegram | DID YOU KNOW?

‍ ⚡️ دانلود رایگان #حافظه_ترجمه