Document AI & Knowledge Information Extraction

AI เอกสาร & การสกัดข้อมูลความรู้

Optical Character Recognition (OCR)

Traditional OCR

  • Tesseract - Open-source OCR engine
  • ABBYY FineReader - Commercial OCR
  • EasyOCR - Deep learning-based OCR
  • PaddleOCR - Multilingual OCR toolkit

Scene Text Recognition

  • CRNN - CNN + RNN architecture
  • ASTER - Attentional scene text recognizer
  • TrOCR - Transformer-based OCR
  • TextSnake - Flexible text detection

Document Layout Analysis

Layout Detection

  • LayoutLM - Multimodal pre-training
  • DocFormer - Document understanding transformer
  • DiT - Document image transformer
  • YOLO-Document - Object detection for documents

Table Detection & Recognition

  • TableNet - Table detection in images
  • TATR - Table structure recognition
  • PubTables-1M - Large-scale table dataset
  • CascadeTabNet - End-to-end table recognition

Information Extraction

Named Entity Recognition (NER)

  • SpaCy NER - Industrial-strength NLP
  • BERT-NER - BERT-based entity recognition
  • BiLSTM-CRF - Sequential labeling
  • Flair - Contextual string embeddings

Relation Extraction

  • OpenIE - Open information extraction
  • Stanford CoreNLP - Relation extraction
  • SpERT - Span-based entity and relation transformer
  • REBEL - Relation extraction by end-to-end language

Document Understanding

Form Understanding

  • FormNet - Structural encoding for forms
  • PICK - Graph-based key information extraction
  • BROS - BERT relying on spatiality
  • StrucTexT - Structured text understanding

Receipt & Invoice Processing

  • CORD - Consolidated receipt dataset
  • LayoutLMv3 - Multimodal pre-training
  • Donut - Document understanding transformer
  • UDOP - Unified document pre-training

Multi-language Support

Thai Document Processing

  • Thai OCR - การรู้จำอักขระไทย
  • PyThaiNLP - Thai natural language processing
  • Thai Word Segmentation - การตัดคำภาษาไทย
  • Thai Named Entity - การระบุนามสมัญไทย

Multilingual Models

  • mBERT - Multilingual BERT
  • XLM-R - Cross-lingual language model
  • mT5 - Multilingual Text-to-Text Transfer
  • CANINE - Character-level multilingual

การประยุกต์ใช้งาน

Business Applications

  • Invoice Processing - ประมวลผลใบแจ้งหนี้
  • Contract Analysis - วิเคราะห์สัญญา
  • Compliance Checking - ตรวจสอบการปฏิบัติตาม
  • Document Classification - จำแนกประเภทเอกสาร

Government & Legal

  • Legal Document Analysis - วิเคราะห์เอกสารกฎหมาย
  • Regulatory Compliance - การปฏิบัติตามกฎระเบียบ
  • Case Law Research - ค้นคว้าคดีก่อนหน้า
  • Patent Analysis - วิเคราะห์สิทธิบัตร

เทคนิคขั้นสูง

  • Few-shot Learning - การเรียนรู้จากตัวอย่างน้อย
  • Zero-shot Classification - จำแนกแบบไม่มีตัวอย่าง
  • Active Learning - การเรียนรู้แบบมีส่วนร่วม
  • Human-in-the-loop - การร่วมมือระหว่างคนกับ AI
  • Confidence Estimation - การประมาณความน่าเชื่อถือ