Service ตัดคำภาษาไทย
มีให้บริการสองแบบคือ
- JSON
- JSONP
วิธีการใช้งาน (json output)
ให้ request ไปที่ atnnazt.appspot.com/tokenizer/index?word=ข้อความที่ต้องการตัด
แต่ถ้าต้องการเรียกใช้งานผ่าน javascript ก็ต้องใช้ jsonp ให้ส่ง callback ไปด้วย
วิธีการใช้งาน (jsonp output)
ระบุ parameter [&callback=your_callback] มาด้วย
http://atnnazt.appspot.com/tokenizer/index?word=ข้อความที่ต้องการตัด&callback=your_callback
Output (JSON Object)
-
text = คำที่ถูกตัด คั่นด้วย => เช่น “ สวัสดี ครับ พี่น้อง ” - list = JSON array ของคำที่ตัดแล้ว =>[“สวัสดี”, “ครับ”, “พี่น้อง”]
- position = JSON array ของตำแหน่งของอักระที่ถูกตัด => [6, 10, 17]
code ตัวอย่าง [jQuery.getJSON]
jQuery.getJSON('http://atnnazt.appspot.com/tokenizer/index?word=สวัสดีครับพี่น้อง&callback=?',
function(tokenized) {
console.log(tokenized, tokenized.text, tokenized.list, tokenized.position);
});
Code ตัวอย่างใน firebug
เบื้องหลังการตัดคำ
ใช้ LexTo ตัดคำ ซึ่งเป็นการตัดคำแบบ dictionary based ทำงานบน google app engine เป็นเว็บด้วย grails
ซึ่งเปิดเผย source code ด้วย [แต่กากมาก] ทำแค่รันได้ (มันแก้ไขมาน่ะ) เชิญที่ github
ตัดคำตามพจนานุกรม lexitron
เรื่องการตัดคำสามารถหาอ่านได้ในตอนเก่าๆ tag LexTo, ตัดคำภาษาไทย