AI สัญชาติไทย “Gowajee” ฟัง-แปลงข้อความคล่องเหมือนเจ้าของภาษา นวัตกรรมเพื่อคนไทยโดยอาจารย์จุฬาฯ

อาจารย์วิศวฯ จุฬาฯ ออกแบบ “Gowajee” นวัตกรรม AI ถอดความภาษาไทย แปลงเสียงเป็นข้อความและข้อความเป็นเสียง แม่นยำเป็นธรรมชาติราวเจ้าของภาษา เก็บข้อมูลปลอดภัย เริ่มใช้งานแล้วกับระบบคอลเซ็นเตอร์และการคัดกรองผู้ป่วยซึมเศร้า จ่อประยุกต์ใช้กับงานอีกหลายรูปแบบ

‘OK, Google’

ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่งหรือบอกให้โปรแกรม AI อย่าง Google หรือ Siri ค้นหาหรือทำงานตามที่เราต้องการแทนการสัมผัสแป้นพิมพ์อักษร แต่เคยรู้สึกไหมว่า AI voice เหล่านั้นดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยที่เราพูดนัก หลายครั้งก็แปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้เราต้องปรับการออกเสียงภาษาไทยเพื่อให้เข้ากับ AI ที่พัฒนามาจากบริษัทต่างชาติซึ่งเน้นการใช้งานกับหลายภาษาโดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษ

จากปัญหาดังกล่าว อ.ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย และทีม ได้พัฒนา AI สัญชาติไทยแท้ “Gowajee” (อ่านว่า โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะ เพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำและเป็นธรรมชาติมากขึ้น พิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9% เท่านั้นเมื่อเทียบกับ AI ถอดความอื่นๆ ที่มีความผิดพลาดราว 15%

สำหรับที่มาของชื่อ Gowajee (โก-วาจี) อ.เอกพล เล่าว่า มาจากคำว่า Go รวมกับคำว่า วาจี หรือวจี โดยคำนี้ถูกออกแบบมาสำหรับเป็นคำพูดเพื่อเริ่มคำสั่งคล้าย ๆ กับ OK, Google หรือ Hey Siri ซึ่งคำว่าโกวาจีนั้นถูกออกแบบมาให้ไม่ซ้ำกับคำที่พูดกันโดยทั่วไปในภาษาไทย

AI ภาษาไทยด้วยฐานข้อมูลเสียงของคนไทย

จากความตั้งใจสร้าง AI แปลงเสียงและข้อความสัญชาติไทย อาจารย์เอกพลและทีมงานได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน

“เราเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบและวิธีการ มีทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่าเรามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ” อ.เอกพล กล่าว

ฐานข้อมูลเสียงภาษาไทยจำนวนมากดังกล่าวช่วยให้ทีม Gowajee พัฒนานวัตกรรม AI ภาษาไทยที่มีความแม่นยำในภาษา และสามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่

  1. Automated Speech Recognition (ASR) เป็นการทำงานในลักษณะของการถอดความ คือ เมื่อเราพูดอะไรลงไป โปรแกรมก็จะแปลงสิ่งที่เราพูดให้ออกมาเป็นข้อความ
    “ยกตัวอย่างการใช้งานในการเรียนรู้ เวลาเราฟังเลคเชอร์ หากเราบันทึกเสียงอาจารย์เอาไว้ โปรแกรมก็จะช่วยถอดความออกมาเป็นตัวหนังสือให้เราอ่านได้เลยโดยไม่ต้องไปถอดความเอง” อ.เอกพล แนะ
  2. Text-to-Speech (TTS) เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด อย่างที่เราคุ้นเคยกับการใช้ Google หรือ Siri ในการช่วยอ่านข้อความ แต่เสียงอ่านที่พัฒนาขึ้นโดยโมเดลของ Gowajee จะมีความเป็นธรรมชาติมากกว่า เนื่องจากมีฐานข้อมูลภาษาไทยจำนวนมากกว่านั่นเอง
  3. Automatic Speaker Verification (ASV) เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือนำมาใช้เพื่อบ่งบอกว่าใครพูดเมื่อใด

Gowajee ตอบโจทย์ระบบคอลเซ็นเตอร์

นับตั้งแต่ที่เริ่มพัฒนา Gowajee ก็มีหน่วยงานต่างๆ ทั้งมหาวิทยาลัย ภาครัฐ และเอกชน นำเทคโนโลยีนี้ไปใช้แล้ว โดยเฉพาะในงานการให้บริการคอลเซ็นเตอร์ ทั้งถอดเสียงเป็นข้อความ และถอดข้อความเป็นเสียง ซึ่งอาจารย์เอกพล กล่าวว่า Gowajee มีข้อผิดพลาดในการถอดความภาษาไทยประมาณ 9% เท่านั้น ในขณะที่ AI ถอดความอื่นๆ มีความผิดพลาดอยู่ที่ประมาณ 15%

“ที่ผ่านมา ลูกค้าส่วนมากมีความพึงพอใจในความถูกต้องของ Gowajee ที่ดีกว่าของเดิมที่เคยใช้ และในแง่ราคา ก็จับต้องได้มากกว่า ในส่วนของข้อผิดพลาด เรามั่นใจว่าต่อไป เมื่อระบบมีข้อมูลเพิ่มมากขึ้นเรื่อยๆ ความผิดพลาดที่มีอยู่ในปัจจุบันจะลดลงเรื่อยๆ”

ค้นความหมายในเสียง Gowajee ช่วยคัดกรองผู้ป่วยซึมเศร้า

จากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่างๆ ทีม Gowajee ได้เข้าไปมีสวนช่วยพัฒนาระบบของแอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า ซึ่งเป็นอีกหนึ่งนวัตกรรมช่วยเหลือสังคมของจุฬาฯ

“DMIND เป็นโจทย์ที่ท้าทายเพราะนอกจากจะต้องถอดความแล้ว ยังต้องใช้โมเดลจำแนกอารมณ์จากเสียงพูดเพื่อนำไปวิเคราะห์หาความหมายของกลุ่มเสี่ยงอีกด้วย บางครั้ง ผู้ป่วยจะพูดไปร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee ก็ทำงานได้ค่อนข้างดี เราอาจไม่จำเป็นต้องถอดความให้ถูกต้องทุกคำ แต่จับคำสำคัญให้ได้เพื่อถอดความสำคัญออกมา”

Gowajee ประยุกต์ช่วยงานอะไรได้อีกบ้าง

อ.เอกพล เผยต่อไปว่า Gowajee และเทคโนโลยี AI ถอดความภาษายังสามารถประยุกต์ใช้ในพื้นที่ชีวิตและการทำงานได้หลากหลาย อาทิ

  • เป็นผู้ช่วยทันตแพทย์ในการจดบันทึกข้อมูลคนไข้ ระหว่างที่ทันตแพทย์กำลังใช้เครื่องมือทำฟันให้คนไข้ ก็พูดบอกสิ่งที่ต้องการบันทึกให้ Gowajee แปลเป็นข้อความ
  • ช่วยตรวจหาความเสี่ยงของผู้ป่วยที่อาจมีภาวะ stroke เมื่อเริ่มพูดไม่ชัด
  • ช่วยเป็น Coach ตั้งคำถามให้ผู้ใช้งานตอบและวิเคราะห์เป้าหมายในการใช้ชีวิตจากการบันทึกการสัมภาษณ์ทางวีดิโอ เป็นส่วนที่ใช้ในการแนะแนวนักศึกษาหรือสำหรับองค์กรที่กำลังรับคนเข้าทำงาน
  • ช่วยแปลงเสียงและขยายเสียงพูดให้ผู้สูงอายุสามารถได้ยินเสียงได้ชัดเจนยิ่งขึ้น

นอกจากนี้ หลายคนอาจคิดถึงการประยุกต์ใช้ Gowajee กับการเรียนและการประชุม ในการแปลงข้อมูลเสียงเป็นข้อความ เป็นต้น

ข้อมูลปลอดภัย มั่นใจ Gowajee

“ความปลอดภัยของข้อมูล” คือจุดเด่นของ Gowajee ที่เหนือกว่า AI ถอดความอื่นๆ อ.เอกพล กล่าวให้ความมั่นใจว่า “โดยปกติแล้ว เวลาเราใช้โปรแกรมถอดความของเจ้าอื่นๆ ข้อมูลจะถูกเก็บไว้บนคลาวด์ (cloud) หรือทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการ แต่สำหรับ Gowajee ข้อมูลเหล่านี้จะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง ซึ่งข้อมูลของผู้ใช้ โดยเฉพาะธนาคารที่ต้องการความปลอดภัยของข้อมูล ก็จะไม่หลุดออกไปภายนอกแน่นอน”

ทุกวันนี้ AI เก่งขึ้นเรื่อยๆ มีความสามารถด้านการใช้ภาษาได้ใกล้เคียงกับมนุษย์มากขึ้นไปทุกที การเติบโตอย่างก้าวกระโดดของ AI เช่นนี้อาจทำให้หลายคนเริ่มหวั่นใจว่าตำแหน่งงานจะถูกแทนที่ด้วยเทคโนโลยี แต่สำหรับนักประดิษญ์ AI ถอดความภาษาไทย อ.เอกพล มองว่า AI เป็นตัวช่วยให้ชีวิตของเราง่ายขึ้นทั้งในปัจจุบันและอนาคต

“AI ไม่ได้ disrupt เราขนาดนั้น ตัวเราเองต่างหากที่ disrupt ตัวเองมากกว่า สังคมสูงวัย ปัญหาประชากรวัยแรงงานขาดแคลน เหล่านี้ต่างหากกำลังบีบเราให้ต้องสร้างเทคโนโลยีเพื่อทุ่นแรงและทดแทนงานบางอย่างที่อนาคตเราอาจจะหาคนมาทำไม่ได้” อ.เอกพล กล่าวก่อนทิ้งท้ายว่า “ผมไม่ได้คาดหวังว่างานของผมจะช่วยเหลือผู้สูงอายุในปัจจุบัน แต่ผมมองว่าในอนาคต ตัวผมเองจะกลายเป็นผู้สูงอายุ ผมคงจะได้ใช้งานเทคโนโลยีเหล่านี้”

สำหรับผู้สนใจเทคโนโลยี AI ถอดความภาษาไทย Gowajee สามารถดูรายละเอียดเพิ่มเติม หรือทดลองใช้ได้ที่ https://www.gowajee.ai/

ที่มา: ศูนย์สื่อสารองค์กร จุฬาฯ