Friday, April 29, 2016

XML DTD

DTD ဆိုတာ Document Tags Definition ကိုအတိုကောက်ခေါ်ဆိုခြင်းဖြစ်ပါတယ်။ XML document ထဲမှာ ဘယ် elements တွေပါရမယ်ဆိုတာကို သတ်မှတ်ပေးတာဘဲဖြစ်ပါတယ်။ တနည်းပြောရရင် XML Document တစ်ခုကို rule သတ်မှတ်ပေးတာဘဲဖြစ်ပါတယ်။ (XML document တစ်ခု valid ဖြစ်၊မဖြစ် DTD ကိုအသုံးချပြီးတော့ ဆုံးဖြတ်နိုင်ပါတယ်။)


DTD Example

[ ] tag ထဲမှာ အသုံးပြုမယ့် elements တွေမှန်သမျှကို ကြေညာထားပေး ရပါတယ်။ ကြေညာထားတဲ့ Element Tag တွေကို attributes တွေသတ်မှတ်ပေးတာ၊ content values တွေကို သတ်မှတ်ပေးတာ စသည်တို့ကို special character တွေကိုအသုံးပြုပြီးတော့ ကြေညာပေးနိုင်ပါတယ်။ (Limitation ပေးနိုင်ပါတယ်)      အရင်ဆုံး တွေ့ရတဲ့ Person ဆိုတာကတော့ Root element ဘဲဖြစ်ပါတယ်။ Person tag ထဲမှာ ထည့်လို့ရတာကတော့ Name tag တစ်ခုတည်းဘဲဖြစ်ပါတယ်။ <Name></Name> ။ Name tag မဟုတ်သောအခြားသော tag တွေကိုထည့်သွင်းလို့ရမှာမဟုတ်ပါဘူး။ ဘာလို့လည်းဆိုရင် DTD ထဲမှာ ကြေညာထားတာက Person tag ထဲမှာ Name tag ထဲရှိရမယ်ဆိုတာကြောင့်ပါ။ (Rule သတ်မှတ်ပေးထားတာပေါ့)  Name နောက်မှာပါတဲ့ + sign က တော့ အနည်းဆုံး တစ်ကြိမ်ပါရမယ် ကိုဆိုလိုပါတယ်(One or More) ။ Person tag ထဲမှာ ဘာ tag  မှမပါဘဲ တော့ မဖြစ်ရဘူး ၊ Name tag တစ်ခုတော့ အနည်းဆုံးပါနေရပါမယ်။

Valid XML Document
Invalid XML Document


Name (CDATA) ဆိုတာက တော့ Name tag ထဲမှာပါဝင်ရမယ့် data type အမျိုးအစားကို သတ်မှတ်   ပေးခြင်းဖြစ်ပါတယ်။ Data Type နှစ်မျိုးရှိပါတယ်။ တစ်ခုက CDATA နှင့် ကျန်တစ်ခုကတော့ PCDATA တို့ဘဲဖြစ်ပါတယ်။ CDATA ကတော့ ကြိုက်တဲ့ character data ဖြစ်လို့ရတယ်။ ဒါပေမဲ့ nested element tag တွေကိုတော့ လက်မခံဘူးပေါ့။ ဥပမာမှာဆိုရင် Name tag ထဲမှာအခြားသော element tag ထပ်ထည့်လိုရမှာမဟုတ်ပါဘူး။

CDATA Example


DTD မှာ attribute value ကိုသတ်မှတ်ပေးခြင်ရင်တော့
            
<! ATTLIST Element_name  Attribute_name  attribute_type  default_value >

ပုံစံကြေညာပေးရပါတယ်။ ဥပမာမှာ Gender ကို Attribute တစ်ခုအနေနှင့်ထည့်ပြပါမည်။

XML Document with Attribute

Name tag မှာ Gender attribute ကိုထည့်သွင်းခြင်းဖြစ်ပါတယ်။ ( ) ထဲမှာကတော့ attribute value တွေကိုကြေညာပေးထားပါတယ်။ Gender Attribute က Male value ဒါမှမဟုတ်၊ Female value ဘဲရှိမယ် ဆိုတာကို သတ်မှတ်ပေးထားတာပါ။ "" ထဲမှာကတော့ default value ဘဲဖြစ်ပါတယ်။


XML Document with Internal DTD

XML Document with External DTD

   DTD ကို *.dtd  ပုံစံဖြင့် save ပြီး XML Document ကနေ Link ချိတ်အသုံးပြုနိုင်ပါတယ်။

အခုဆိုရင် DTD ကို အနည်းအငယ် သိရှိသွားမည်ဖြစ်ပါတယ်။ DTD ကိုသုံးတဲ့အခါမှာ အားသာချက်၊ အားနည်းချက်တွေရှိပါတယ်။ အားသာချက်ကတော့ XML Document ကို valid စစ်ပေးနိုင်ခြင်း၊ အားနည်းချက်ကတော့ XML Parser ကို second syntax ဖြစ်ပေါ်စေခြင်းတို့ဘဲဖြစ်ပါတယ်။ ပြီးတော့ namespace   ကိုလည်း support မပေးပါဘူး။

Wednesday, April 20, 2016

DOM vs SAX

DOM နှင့် SAX နှစ်ခုစလုံးမှာ သူဟာနှင့်သူ အားသာချက်၊ အားနည်းချက်တွေရှိပါတယ်။

DOM က document structure တစ်ခုလုံးကို memory ပေါ်တင်တဲ့အတွက်ကြောင့် document structure ကြီ:ရင် ကြီးသလောက် memory resource တွေလိုအပ်ပါတယ်။ ဒါပေမဲ့ သူက element တွေ တစ်ခုနှင့်တစ်ခုကြားမှာ အလွယ်တကူသွားလာနိုင်ခြင်း၊ element content တွေကို modify (read/write) လုပ်ရတာလွယ်ကူခြင်းတို့ကြောင့် အသုံးများပါတယ်။ (ဥပမာ - application တစ်ခုရဲ့ system configure file)

SAX ကတော့ document structure တစ်ခုလုံးကို memory ပေါ်မတင်တဲ့အတွက် less-memory intensive ဘဲလိုအပ်ပါတယ်။ SAX ကိုများသောအားဖြင့် element content များတဲ့ XML document တွေကို parse လုပ်တဲ့နေရာမှာအသုံးပြုပါတယ်။ SAX parser တွေက XML document ကို modify (Read only) လုပ်မပေးနိုင်ပါဘူး။ (ဥပမာ directory data file )



DOM
SAX
Read Mode
Reads entire Document
Reads Node by Node
XML File size
Small/Medium XML File
Large XML File
Parser Type
Tree based Parser
Event based Parser
Speed
Little Slow
Faster
Read
Yes
Yes
Write
Yes
No

DOM Parser Java Example Code

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
package XML;

import javax.xml.parsers.*;
import java.io.*;
import org.w3c.dom.*;
import org.xml.sax.*;

public class DOMparser {
 
 
 
 public static void main(String [] args){
  try{
   //Read File
   File xmlFile=new File("catalog.xml");
   
   //DocumentBuilderFactory
   DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
   
   //DocumentBuilder
   DocumentBuilder builder=factory.newDocumentBuilder();
   
   //Document
   Document document=builder.parse(xmlFile);
   
   //Get Root Element
   Element rootElement=document.getDocumentElement();
   
   System.out.println("Root Elemnet :" + rootElement.getTagName());
   
   parseNode(null,rootElement);
   
   
  }catch(Exception e){
   e.printStackTrace();
  }
  
 }
 
 public static void parseNode(Element previousNode,Element visitNode){
  
  if(previousNode != null){
   System.out.println("Element "+ previousNode.getTagName() + " has element :");
  }
  System.out.println("Element Name :" + visitNode.getTagName());
  
  //List Attributes From VisitNode
  if(visitNode.hasAttributes()){
   System.out.println("-Elment " + visitNode.getTagName() +" has Attributes :");
   NamedNodeMap attributes=visitNode.getAttributes();
   
   //Extract Attributes
   for(int i=0; i<attributes.getLength(); i++){
    Attr attribute=(Attr)(attributes.item(i));
    //Print Attribute
    System.out.println("--Attribute :" + attribute.getName() + " = " + attribute.getValue());
   }
  }//End of Attributes List
   
  //Read Nested Element or Child Node
  //Get Child Node List
  NodeList nodeList=visitNode.getChildNodes();
  
  for(int i=0; i<nodeList.getLength(); i++){
   //Get Child Node
   Node node=nodeList.item(i);
   
   if(node.getNodeType()==Node.ELEMENT_NODE){
    Element element=(Element)node;
    
    //Do same Thing /Revcursive Algorithm
    parseNode(visitNode,element);
   }
   else if(node.getNodeType()==Node.TEXT_NODE){
    String str=node.getNodeValue().trim();
    if(str.length()>0){
     System.out.println("---Element Text: " + str);

    }
   }
   
  }
  
  
  
 }


}



SAX Parser Java Example Code


 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
package XML;

import org.xml.sax.*;
import javax.xml.parsers.*;
import org.xml.sax.helpers.*;
import java.io.*;

public class SAXParser {
 
 public static void main(String []args){
  SAXParser saxParser=new SAXParser();
  saxParser.parseDocument();
 }
 
 public void parseDocument(){
  try{
   //SAX Parser Factory
   SAXParserFactory factory=SAXParserFactory.newInstance();
   
   //SAX Parser
   SAXParser parser=factory.newSAXParser();
   
   //Handler **
   DefaultHandler handler=new CustomSAXHandler();
   //Set File to Parse and Set Handler
   parser.parse(new File("catalog.xml"), handler);
   
   
  }catch(Exception e){
   e.printStackTrace();
  }
 }
 
 private class CustomSAXHandler extends DefaultHandler {
  //Constructor
  public CustomSAXHandler(){
   
  }
  
  //Start Document
  public void startDocument() throws SAXException {
   System.out.println("Event Type : Start Document ");
  }
  
  //End Document
  public void endDocument() throws SAXException {
     System.out.println("Event Type : End Document ");
  }
    
  //Start Element
  public void startElement (String uri,String localName,String qName,Attributes attributes){
   System.out.println("Event Type: Start Element");
   System.out.println("Element Name:" + qName);
   for (int i = 0; i < attributes.getLength(); i++) {
   System.out.println("Attribute Name:" + attributes.getQName(i));
   System.out.println("Attribute Value:" + attributes.getValue(i));
   }
  }
  
  //End Element
  public void endElement(String uri, String localName, String qName)
    throws SAXException {
    System.out.println("Event Type: End Element");
  }
  
  //Get Text
  public void characters(char[] ch, int start, int length)
    throws SAXException {
    System.out.println("Event Type: Text");
    String str = (new String(ch, start, length));
    System.out.println(str);
  }
  
  //Error
  public void error(SAXParseException e)
    throws SAXException{
    System.out.println("Error "+e.getMessage());
  }
  public void fatalError(SAXParseException e)
    throws SAXException{
    System.out.println("Fatal Error "+e.getMessage());
  }
  public void warning(SAXParseException e)
    throws SAXException{
    System.out.println("Warning "+e.getMessage());
  }


 }

}

Sunday, April 17, 2016

XML

XML ဆိုတာက Extensible Markup Language ကိုခေါ်ဆိုခြင်းဖြစ်ပြီး platform independent တဲ့ text-based markup language တစ်ခုဖြစ်ပါတယ်။ XML ကို Meta-data Language လို့လည်းခေါ်ပါသေးတယ်။ XML ကိုမပြာခင်မှာ HTML ကိုအရင်သိထားသင့်ပါတယ်။ HTML မှာ သတ်မှတ်ထားသော tag တွေသာအသုံးပြုလို့ရပါတယ်။ သူ့ထဲမှာမပါတဲ့ tag တွေကိုရေးလို့မရပါဘူး။ (အသစ်ထပ်ထည့်လို့မရဘူးပေါ့) အဲ့တာမျိုးကို not extensible လို့ပြောပါတယ်။ XML မှာတော့ ကြိုက်တဲ့ tag ကိုရေးသားနိုင်ပါတယ်။ ကိုယ့်စိတ်ကြိုက်သတ်မှတ်ပေးလို့ရပါတယ်။ (စိတ်ကြိုက်ရေးလို့ရတယ်ဆိုတာ ဖြစ်သလိုရေးရတာမဟုတ်ပါဘူး၊ XML မှာအခြေခံသတ်မှတ်ထားတဲ့ စည်းကမ်းချက်တွေကိုတော့လိုက်နာရပါတယ်။) XML document  တွေကိုများသောအားဖြင့် low level data တွေဖြစ်တဲ့ System configuration file တွေအတွက်နှင့် document တစ်ခုရဲ့ meta data ကိုသိမ်းဆည်းရန်အတွက်အသုံးပြုပါတယ်။


XML Document

XML Document တစ်ခုမှာ အောက်ပါ components တွေပါဝင်ပါတယ်။
  1. Prologue
  2. Elements
  3. Attributes

Prologue ဆိုတာက XML Document မှာ version, encoding စတာတွေကို ကြေညာပေးတဲ့ အပိုင်းဘဲဖြစ်ပါတယ်။
            <? xml version=”1.0” encoding=”UTF-8”?>
အကယ်၍ prologue သာမပါဘူးဆိုရင် XML doc က default အနေနဲ့ version=”1.0”နှင့် encoding=”UTF-8”ကိုတည်ဆောက်ပေးမှာဖြစ်ပါတယ်။အခြားသော tag တွေနှင့်မတူတာက Prologue tag မှာ <? နှင့်စပြီး ?> နှင့်အဆုံးသတ်ပါတယ်။

Elements

Prologue ပြီးတဲ့အခါကျန်သော tag တွေအားလုံးကို element လို့ခေါ်ပါတယ်။ XML document ထဲက element tag ကိုအောက်ပါအတိုင်းရေးသားပါတယ်။
            <tag_name attribute_name=”attribute_value” >                               content                      </tag_name>
Element ထဲမှာ content လည်းဖြစ်နိုင်သလို နောက်ထပ် element tag (nested element) တစ်ခုလည်းဖြစ်နိုင်ပါတယ်။ Attribute: Element tag တစ်ခုစိတိုင်းမှာ ပါဝင်နိုင်ပါတယ်။ XML document tag တွေက case-sensitive ဖြစ်ပါတယ်။

Example of XML document
Sample XML Document

            Example မှာဆိုရင် Programming tag က အပြင်ဘက်ဆုံး tag ဖြစ်ပြီး သူ့ကို root node (Document Element) လို့ခေါ်ပါတယ်။ Programming tag ထဲမှာ အခြား tag 4 ခုပါဝင်ပါတယ်။ (Java, C, VB, HTML) Java tag ထဲမှာ attribute တစ်ခုပါဝင်ပါတယ်။ use  ဆိုတာ attribute name ဖြစ်ပြီး ၊ JDK8 ဆိုတာကတော့ attribute value ဘဲဖြစ်ပါတယ်။ Hello World ဆိုတာက content value ဘဲဖြစ်ပါတယ်။ Web tag ထဲမှာတော့ Html ရယ် Database ရယ် ဆိုပြီးတော့ nested tag ၂ခု ထည့်သွင်းထားပါတယ်။
XML document တစ်ခုဟာ only data storage ပါဘဲ။ သူကိုယ်တိုင် သူ့ထဲမှာ ပါဝင်တဲ့ data(content) တွေကိုမပြသနိုင်ပါဘူး။အဲ့တော့ သူ့ထဲက data တွေကို သိရှိနိုင်ဖို့အတွက် သူ့ကို Parse လုပ်ရပါတယ်။ အဲ့လို လုပ်ဆောင်ပေးသော function ကို XML Parser လို့ခေါ်ပါတယ်။

XML Parser

            XML Document အတွင်းမှာရှိတဲ့ element content တွေကို access လုပ်နိုင်ရန်အတွက် XML parser ကထောက်ပံ့ပေးပါတယ်။ (XML Document တစ်ခုကို parse မလုပ်ခင် အရင်ဆုံး parse လုပ်မဲ့ document က error ကင်းနေဖို့လိုအပ်ပါတယ်။ အဲ့လိုမျိုး XML document တစ်ခု error ကင်းကြောင်းစမ်းသတ်တဲ့နည်းတွေအများအပြားရှိပါတယ်) Document တစ်ခုကို parse လုပ်တဲ့အခါ နည်းလမ်း ၂ မျို:အသုံးပြုလို့ရပါတယ်။
·         Document Object Model (DOM)
·         Simple API for XML (SAX)

DOM Parser
            DOM parser က document တစ်ခုလုံးကို ဖတ်လိုက်ပါတယ်။ ဆိုလိုတာက document  တစ်ခုလုံးကို memory ပေါ်တင်ပေးလိုက်တာပါဘဲ။ tree-structure ပုံစံအနေနှင့်ပေါ့ ။ ( Document အတွင်းမှာရှိတဲ့ element တစ်ခုချင်းစိက tree node အနေနှင့် ရောက်ရှိသွားပါတယ်။ )
DOM parser's memory structure

 
SAX Parser

            SAX Parser က Event-Driven parser တစ်ခုဖြစ်ပါတယ်။ သူက document ကိုအပိုင်းတွေခွဲလုပ်တာပါ။ (Document structure တစ်ခုလုံးကို memory ပေါ်မတင်ပါဘူး Line by Line လုပ်ဆောင်သွားတာဘဲဖြစ်ပါတယ်)
Event Sequence SAX Processing