ผลิตภัณฑ์

Nara AI v1: แผนเปิดตัวโมเดลภาษาไทยโอเพ่นซอร์ส

Nara AI v1: roadmap for our open-source Thai LLM

หลายเดือนที่ผ่านมา ทีม Nara Lab ทุ่มเทให้กับการสร้าง Nara AI — โมเดลภาษาไทยที่เข้าใจบริบทของไทยจริง ๆ ไม่ใช่แค่แปลจากภาษาอังกฤษ วันนี้เราพร้อมเปิดเผยแผนการเปิดตัว v1

ทำไมต้องเป็นโมเดลภาษาไทยโอเพ่นซอร์ส?

โมเดลภาษาส่วนใหญ่ที่ใช้กันอยู่ — แม้จะเก่งก็จริง — แต่เข้าใจภาษาไทยในระดับ “แปลได้” ไม่ใช่ “เข้าใจ”

ปัญหาคือ:

  • วัฒนธรรมและบริบท: คำว่า “เกรงใจ” ไม่มีในภาษาอังกฤษ โมเดลที่ train กับ corpus อังกฤษไม่เข้าใจ
  • ความเป็นทางการ: ภาษาไทยมีระดับความสุภาพที่ซับซ้อน (ครับ/ค่ะ, ราชาศัพท์)
  • ความเป็นเจ้าของ: ถ้าโมเดลปิด ใครจะรู้ว่ามัน bias อย่างไร?

สถาปัตยกรรมของ Nara AI v1

เราเลือก Gemma 4 12B เป็นฐาน เพราะ:

  1. ขนาดพอเหมาะ — ใหญ่พอที่จะเก่ง แต่เล็กพอที่จะรันได้บนเครื่องคน
  2. โอเพ่นซอร์สจริง (Apache 2.0)
  3. รองรับการ train ต่อด้วย LoRA หลายชั้น

เป้าหมายของเราไม่ใช่การแข่งกับ GPT-4 แต่คือการทำให้ภาษาไทยมีโมเดลที่ “ดีพอและเป็นของเรา”

ลำดับการปล่อย

Q3 2026 — Beta

  • โมเดล base + LoRA ภาษาไทย
  • เผยแพร่บน HuggingFace
  • เปิด benchmark แบบเปิด

Q4 2026 — v1

  • เพิ่ม instruction tuning
  • เพิ่ม DPO สำหรับความปลอดภัย
  • ตัวช่วยสำหรับนักพัฒนา

จะมีส่วนร่วมอย่างไร

  • นักพัฒนา: ทดลองใช้และรายงานปัญหาที่ GitHub
  • นักวิจัย: ช่วยกันประเมินโมเดลผ่าน NaraEval-TH
  • ผู้ใช้ทั่วไป: ลองใช้และให้ feedback

เราจะเขียนบทความหลัง ๆ อธิบายรายละเอียดเทคนิคของแต่ละขั้นตอน — ติดตามได้ที่นี่หรือทาง RSS

← กลับหน้าแรก RSS

อ่านต่อ

บทความที่เกี่ยวข้อง