the knowledge flow interface 김개원 데이터베이스 연구실. 1. overview
TRANSCRIPT
The Knowledge Flow Interface
김개원
데이터베이스 연구실
1. Overview
Overview
Explorer 특정 data 에 대해 다양한 option 으로 실험을
해볼 수 있는 환경
KnowledgeFlow 기능적으로 Explorer 와 동일하지만 Drag &
Drop 방식으로 실험해 볼 수 있음 Incremental LearningIncremental Learning 이 가능함이 가능함
Simple CLI Command Line Interface 를 구동시키는
메뉴로 WEKA Java Class Module 을 바로 구동시켜 볼 수는 환경
Experimenter 여러 Machine Running Algorithm 을 비교해
볼 수 있는 환경
3
2. Components
Data Sources & Data Sinks
Data Sources / Data Sinks 데이터가 입력 / 출력 되는 Source 를 설정하기 위해 사용
Possible Data Sources ARFF file (Attribute-Relation File Format) CSV file (Comma-Separated Values)
Spreadsheets 에서 데이터 형식이 변환된 파일 C4.5 file
C4.5 Decision Tree Algorithm 이 적용된 File
Serialized Instance Java Object 의 Instance 로 저장된 데이터 파일
Database
5
Data Sources File Format 비교
ARFF File Format CSV File Format
6
Visualization
Visualization 출력을 Text 나 Grapth 등으로 시각적으로 나타내기 위해 사용
Components Data Visualizer Scatter Plot Matrix Attribute Summarizer Model Performance Chart Text Viewer Graph Viewer Strip Chart
7
Visualization
8
Data Visualizer Scatter Plot Matrix
Attribute Summarizer
Model Performance Chart
Evaluation
Evaluation 입력과 출력 알고리즘을 구성하기 위해 사용
Components Training Set Maker Test Set Maker Cross Validation Fold Maker Train Test Split Maker Class Assigner Class Value Picker Classifier Performance Evaluator Incremental Classifier Evaluator Cluster Performance Evaluator
9
Evaluation
Components TrainingSetMaker / TestSetMaker
Training Set / Test Set 으로 Data Set 을 만든다 . CrossValidationFoldMaker
Data Set 으로부터 Cross-Validation Folds 를 구성한다 . Cross-Validation
모집단의 표본에 자주 이용되는 방법을 같은 모집단의 다른 표본에 적용시켜 정확성을 확인
K-Folds Cross-Validation 1 개 – Test Set, K-1 개 – Training Set 으로 구성
TrainTestSplitMaker Data Set 에서 Training Set 을 ?% 사용할 것인지 설정
ClassAssigner 분석의 목적이 되는 속성 ( 종속 변수 ) 을 설정
ClassValuePicker ClassifierPerformanceEvaluator /
ClusterPerformanceEvaluator 알고리즘 평가 통계치를 수집 Visualization Components 에 연결
IncrementalClassifierEvaluator 10
3. Operations
Edit Operations & Action Operations
Edit Operation The Edit operations delete components and open up their
configuration panel
Actions Operation The Actions operations are specific to that type of component
12
Connections Operation The Connections operations are used to connect
components Two kinds of connection from data sources
Data Set Batch operation
Test Set or Training Set 을 구성하여 일괄적으로 처리하는 Classifier Components 에 연결
Instance Stream operation
Incremental Learning 이 가능한 Classifier Components 에 연결
Two types of connection from classifier graph, text batchClassifier, incrementalClassifier
Performance Evaluator, Incremental Classifier Evaluator 에 연결
13
Connections Operation
4. Incremental Learning
Several classifiers & Filters that can handle data incrementally Classifiers
AODE, NaiveBayesUpdateable, Winnow, instance-based learners(IBl, IBk, KStar, LWL)
Filters Add, AddExpression, Copy, FirstOrder, MakeIndicator,
MergeTwoValues, NonSparseToSparse, NumericToBinary, NumericTransform, Obfuscate, Remove, RemoveType, RemoveWithValues, SparseToNonSparse, and SwapValues
Incremental Learning Algorithms can process data files that are too large to fit in memory
Many instance-based learners store the entire dataset internally
15
Incremental Learning
5. Example
Example (batch mode)
17
Example (batch mode)
18
Example (batch mode)
19
Example (incremental learning)
20
Strip chart plots both the accuracy and the root mean-squared probability error against time
21
Example (incremental learning)