My Octopress Blog

A blogging framework for hackers.

ตัดคำภาษาไทยด้วย Javascript [ตัดคำทาง Service]

Service ตัดคำภาษาไทย

มีให้บริการสองแบบคือ

  • JSON
  • JSONP

วิธีการใช้งาน (json output)

ให้ request ไปที่ atnnazt.appspot.com/tokenizer/index?word=ข้อความที่ต้องการตัด

แต่ถ้าต้องการเรียกใช้งานผ่าน javascript ก็ต้องใช้ jsonp ให้ส่ง callback ไปด้วย

วิธีการใช้งาน (jsonp output)

ระบุ parameter [&callback=your_callback] มาด้วย

http://atnnazt.appspot.com/tokenizer/index?word=ข้อความที่ต้องการตัด&callback=your_callback

Output (JSON Object)

tokenizer

  • text = คำที่ถูกตัด คั่นด้วย => เช่น “ สวัสดี ครับ พี่น้อง
  • list = JSON array ของคำที่ตัดแล้ว =>[“สวัสดี”, “ครับ”, “พี่น้อง”]
  • position = JSON array ของตำแหน่งของอักระที่ถูกตัด => [6, 10, 17]

code ตัวอย่าง [jQuery.getJSON]

jQuery.getJSON('http://atnnazt.appspot.com/tokenizer/index?word=สวัสดีครับพี่น้อง&callback=?',
  function(tokenized) {
    console.log(tokenized, tokenized.text, tokenized.list, tokenized.position);
  });

Code ตัวอย่างใน firebug

jQuery getJSON

เบื้องหลังการตัดคำ

ใช้ LexTo ตัดคำ ซึ่งเป็นการตัดคำแบบ dictionary based ทำงานบน google app engine เป็นเว็บด้วย grails

ซึ่งเปิดเผย source code ด้วย [แต่กากมาก] ทำแค่รันได้ (มันแก้ไขมาน่ะ) เชิญที่ github

ตัดคำตามพจนานุกรม lexitron

เรื่องการตัดคำสามารถหาอ่านได้ในตอนเก่าๆ tag LexTo, ตัดคำภาษาไทย