group-telegram.com/motarjemshodan/492
Last Update:
۱. پیکرهٔ موازی انگلیسیفارسی دانشگاه تهران (TEP)
این پیکره، که در آزمایشگاه پردازش زبان طبیعی دانشگاه تهران تهیه شده، مجموعهای است حاوی بیش از ششصدهزار جملهٔ همترازشده انگلیسی و فارسی که از زیرنویس ۱۶۰۰ فیلم استخراج شدهاند.
در پیوست این مطلب (یا از اینجا) میتوانید این پیکره را بهصورت حافظهٔ ترجمه دانلود کنید.
در این نسخه خطاهایی که مانع ایمپورت آن به نرمافزارهای مترجمیار (ترادوس، وردفست، ممکیو، میتکت، امگاتی و...) میشد برطرف کردیم و همچنین فاصلهٔ قبل از نقطه و کاما برداشته شده است.
حافظهٔ ترجمه فارسیانگلیسی از پیکرههای دیگر:
2. CCMatrix v1
۲۴.۵ میلیون جمله، استخراج شده از وب، حجم ۲ گیگ
3. NLLB v1
۲۴.۵ میلیون جمله، ایجاد شده با متادیتا، حجم ۲ گیگ
4. OpenSubtitles v2018
۵.۵ میلیون جمله، برگرفته از فیلمهای ترجمهشده، حجم ۲۰۰ مگ
5. CCAligned v1
۵.۲ میلیون جمله، استخراجشده از اسناد تحت وب، حجم ۴۵۰ مگ
6. LinguaTools-WikiTitles v2014
۳.۵ میلیون جمله، برگرفته از عنوان مقالههای ویکیپدیا، حجم ۴۰ مگ
7. XLEnt v1.2
۲ میلیون جمله، استخراجشده از وب، حجم ۴۵ مگ
8. WikiMatrix v1
۳۰۰ هزار جمله، استخراجشده از ویکیمدیا، حجم ۳۷ مگ
9. Tanzil v1
۱ میلیون جمله، برگرفته از ترجمهٔ قرآن، پروژهٔ تنزیل، حجم ۱۲۹ مگ
10. MIZAN v1
۱ میلیون جمله، استخراجشده از متون ادبی کلاسیک، حجم ۶۳ مگ
11. GNOME v1
۸ هزار جمله، برگرفته از فایلهای بومیشدهٔ گنوم، حجم ۲۰۰ کیلوبایت
12. wikimedia v20230407
۳۰۰ هزار جمله، استخراجشده از مقالههای ویکیپدیا، حجم ۷۰ مگ
13. TED2020 v1
۳۰۰ هزار جمله، استخراجشده از زیرنویسهای تد ۲۰۲۰، حجم ۲۶ مگ
14. QED v2.0a
۱۵ هزار جمله، برگرفته از زیرنویسهای آموزشی آمارا، حجم ۸ مگ
15. NeuLab-TedTalks v1
۲۰۰ هزار جمله، برگرفته از زیرنویسهای تد از طریق phontron.com، حجم ۱۴ مگ
16. KDE4 v2
۷۶ هزار جمله، استخراجشده از فایلهای بومیشدهٔ کیدیای، حجم ۲ مگ
17. Wikipedia v1.0
۹۵ هزار جمله، برگرفته از مقالههای ویکیپدیا، حجم ۱۰ مگ
18. TED2013 v1.1
۸۰ هزار جمله، استخراجشده از زیرنویسهای تد ۲۰۱۳، حجم ۶.۸ مگ
19. infopankki v1
۱۵ هزار جمله، برگرفته از اوپن دیتا، حجم ۸۶۰ کیلوبایت
20. GlobalVoices v2018q4
۲۰ هزار جمله، استخراجشده از اخبار گلوبال ویسس، حجم ۱ مگ
21. tico-19 v2020-10-28
۳ هزار جمله، برگرفته از حافظههای ترجمه کووید-۱۹، حجم ۳۸۳ کلیوبابت
22. ELRC_2922 v1
۲ هزار جمله، استخراجشده از پایگاه سلامت ویکیپدیا، حجم ۲۵۰ کیلوبایت
23. ELRC-3078-wikipedia_health v1
۲ هزار جمله، استخراجشده از پایگاه سلامت ویکیپدیا، حجم ۲۵۰ کیلوبایت
24. ELRC-wikipedia_health v1
۲ هزار جمله، استخراجشده از پایگاه سلامت ویکیپدیا، حجم ۲۵۰ کیلوبایت
پیکرهٔ موازی و حافظهٔ ترجمهٔ زبانهای دیگر را هم میتوانید از همین منبع پیدا و دانلود کنید.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
کانال تلگرام | گروه تلگرام | اینستاگرام
▪️motarjemshodan | مترجمشدن