ĐỀ tÀi khoa hỌc sỐ 2.1.10-tc07-08vienthongke.vn/attachments/article/2861/05....

66
151 ĐỀ TÀI KHOA HC S2.1.10-TC07-08 NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ TỰ THÔNG MINH TRONG XỬ LÝ SỐ LIỆU TỔNG ĐIỀU TRA DÂN SỐ VÀ NHÀ Ở NĂM 2009 1. Cấp đề tài : Tng cc 2. Thi gian nghiên cu : 2007-2008 3. Đơn vị thc hin : Trung tâm Tin hc Thng kê 4. Chnhiệm đề tài : TS. Thiều Văn Tiến PHẦN I KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƢỚC 1. Công nghệ quét, nhận dạng Công nghệ nhận dạng đã đƣợc cơ quan thống kê nhiều nƣớc áp dụng trong xử lý điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập tin từ bàn phím. Công nghệ quét, nhận dạng đầu tiên là công nghệ đọc đánh dấu quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ nhận dạng ký tự quang học (OCR- Optical Character Recognition) và công nghệ nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition). 1.1. Công nghệ đọc, đánh dấu quang học (OMR) Cách đây vài thập kỷ, rất nhiều nƣớc tiên tiến đã sử dụng công nghệ nhận dạng ký tự đánh dấu bằng thiết bị quang học (OMR) để xử lý phiếu điều tra. Đây là một bƣớc tiến quan trọng trong việc xử lý phiếu tự động nhƣng việc áp dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao nhƣ: phải có thiết bị đọc riêng, yêu cầu cao về chất lƣợng giấy và in phiếu, không nhận dạng đƣợc các chữ cái và các chữ số phải chuyển đổi thành nhiều ký tự đánh dấu v.v. Công nghệ OMR đòi hỏi có thiết bị đọc riêng và phải đánh dấu trên phiếu hỏi. Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế form thông thƣờng. Form thiết kế phải có các rãnh dọc theo mép của form, chỉ rõ cho máy Scanner đọc và nhận dạng điểm nào. Thêm vào đó đƣờng cắt của form OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles”

Upload: others

Post on 29-Dec-2019

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

151

ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08

NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ NHẬN DẠNG KÝ TỰ

THÔNG MINH TRONG XỬ LÝ SỐ LIỆU TỔNG ĐIỀU TRA DÂN SỐ

VÀ NHÀ Ở NĂM 2009

1. Cấp đề tài : Tổng cục

2. Thời gian nghiên cứu : 2007-2008

3. Đơn vị thực hiện : Trung tâm Tin học Thống kê

4. Chủ nhiệm đề tài : TS. Thiều Văn Tiến

PHẦN I

KINH NGHIỆM ÁP DỤNG CÔNG NGHỆ QUÉT, NHẬN DẠNG

KÝ TỰ TRONG XỬ LÝ ĐIỀU TRA THỐNG KÊ CỦA MỘT SỐ NƢỚC

1. Công nghệ quét, nhận dạng

Công nghệ nhận dạng đã đƣợc cơ quan thống kê nhiều nƣớc áp dụng

trong xử lý điều tra để đọc dữ liệu tự động từ các bảng hỏi thay cho việc nhập

tin từ bàn phím. Công nghệ quét, nhận dạng đầu tiên là công nghệ đọc đánh

dấu quang học (OMR- Optical Mark Recognition), tiếp theo là công nghệ

nhận dạng ký tự quang học (OCR- Optical Character Recognition) và công

nghệ nhận dạng ký tự thông minh (ICR-Intelligent Character Recognition).

1.1. Công nghệ đọc, đánh dấu quang học (OMR)

Cách đây vài thập kỷ, rất nhiều nƣớc tiên tiến đã sử dụng công nghệ

nhận dạng ký tự đánh dấu bằng thiết bị quang học (OMR) để xử lý phiếu điều

tra. Đây là một bƣớc tiến quan trọng trong việc xử lý phiếu tự động nhƣng

việc áp dụng rộng rãi gặp nhiều khó khăn do có nhiều đòi hỏi quá cao nhƣ:

phải có thiết bị đọc riêng, yêu cầu cao về chất lƣợng giấy và in phiếu, không

nhận dạng đƣợc các chữ cái và các chữ số phải chuyển đổi thành nhiều ký tự

đánh dấu v.v.

Công nghệ OMR đòi hỏi có thiết bị đọc riêng và phải đánh dấu trên

phiếu hỏi. Chính vì vậy, thiết kế form OMR sẽ phức tạp hơn nhiều là thiết kế

form thông thƣờng. Form thiết kế phải có các rãnh dọc theo mép của form,

chỉ rõ cho máy Scanner đọc và nhận dạng điểm nào. Thêm vào đó đƣờng cắt

của form OMR phải cực kỳ chính xác, bao gồm các hình ô văng “bubbles”

Page 2: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

152

nhỏ. Để thiết kế chỗ khoanh câu trả lời cho một câu hỏi phải tốn nhiều chỗ vẽ

hình ô văng đó cho từng phƣơng án trả lời một. Sau đó điều tra viên sẽ làm

kín ô có phƣơng án trả lời đúng thì máy Scan mới nhận dạng đƣợc. OMR

không thể nhận dạng chữ viết tay và chữ in.

Về độ chính xác thì công nghệ nhận dạng OMR so với công nghệ OCR

và ICR là hơn hẳn. Tuy nhiên nó sẽ rất tốn công sức và chi phí hơn công nghệ

ICR và OCR.

1.2. Công nghệ nhận dạng ký tự quang học (OCR)

Công nghệ OCR là một bƣớc tiến mới so với công nghệ OMR bởi vì nó

có thể nhận dạng ký tự in trên giấy. Tuy tỷ lệ nhận dạng chính xác không

bằng công nghệ OMR nhƣng nó đỡ tốn kém hơn công nghệ OMR. Công

nghệ này chuyển hình ảnh chữ thành mã tƣơng ứng mà máy tính có thể đọc

đƣợc (ASCII text file). Công nghệ OCR chỉ có thể nhận dạng chữ in chứ

không thể nhận dạng đƣợc chữ viết tay. Đối với chữ in nó cũng chỉ có thể

nhận dạng một số loại fonts chuẩn nhƣ Times Roman và Arial.

1.3. Công nghệ nhận dạng ký tự thông minh (ICR)

Từ những năm 90 của thế kỷ trƣớc, công nghệ nhận dạng ký tự thông

minh (ICR) bắt đầu dần thay thế công nghệ OMR. Những loại ký tự có thể

đọc và nhận dạng đƣợc bởi công nghệ này bao gồm: các chữ in, chữ viết tay,

các ký tự đánh dấu hay đƣợc khoanh, mã vạch,... Các phiếu điều tra đƣợc

nhập vào máy tính thay vì bằng cách nhập tin từ bàn phím nay đƣợc máy quét

(scanner) chuyển thành hình ảnh và sau đó đƣợc nhận dạng chuyển đổi thành

các chữ cái chữ số mà máy tính có thể xử lý đƣợc.

So với OMR, công nghệ ICR là một bƣớc tiến dài khi nó nhận dạng

đƣợc không chỉ các ký tự đánh dấu, mã vạch,... mà còn nhận dạng chữ viết

tay. Công nghệ ICR là công nghệ tiên tiến nhất trong các công nghệ OMR,

OCR, ICR. Công nghệ ICR cũng không đặt yêu cầu quá cao về chất lƣợng

giấy, không đòi hỏi thiết bị chuyên biệt. Ngày nay ICR đƣợc sử dụng rộng rãi

ở rất nhiều nƣớc trong nhiều lĩnh vực, riêng lĩnh vực xử lý điều tra thống kê

nhất là các tổng điều tra, công nghệ ICR đang dần chiếm lĩnh và thay thế

cách thức nhập tin truyền thống. Tuy tỷ lệ nhận dạng không cao bằng công

nghệ OCR và OMR (thƣờng đạt tỷ lệ lớn hơn 95%), nhƣng nó gần với thực tế

hơn, gần với form thiết kế nhập tin hơn, dễ sử dụng hơn.

Page 3: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

153

2. Kinh nghiệm áp dụng công nghệ quét, nhận dạng trong xử lý điều tra

thống kê của một số nƣớc

2.1. Kinh nghiệm của Thái Lan

Trƣớc năm 2000, Thái Lan đã thử nghiệm công nghệ nhận dạng ký tự

thông minh (ICR) và lần đầu tiên áp dụng công nghệ này trong xử lý số liệu

tổng điều tra dân số năm 2000. Sau khi xử lý Tổng Điều tra Dân số năm

2000, Thái Lan tiếp tục sử dụng công nghệ này trong xử lý điều tra Lao động

(Labour Force Survey), điều tra Hộ sản xuất (The Household Manufacturing

Survey), Tổng Điều tra Nông nghiệp năm 2003, v.v.

Số lƣợng phiếu đã xử lý trong tổng điều tra dân số năm 2000 của Thái

Lan là 16 triệu phiếu. Nếu nhập tin bằng bàn phím thời gian nhập tin kéo dài

12 tháng, trong khi sử dụng công nghệ quét, nhận dạng ký tự ICR chỉ mất 8

tháng (bằng 2/3 thời gian nhập tin bằng bàn phím).

Cơ quan Thống kê Quốc gia Thái Lan (NSO) xử lý số liệu tổng điều tra

dân số 2000 theo mô hình tập trung. Cơ quan Thống kê tỉnh có trách nhiệm

tiến hành điều tra, kiểm tra phiếu, hiệu đính và ghi mã trƣớc khi gửi về NSO

tại Băng Cốc. Việc quét và xử lý tiến hành tập trung tại Băng Cốc.

Hệ thống máy móc, thiết bị và phần mềm sử dụng công nghệ ICR gồm 2

hệ thống:

- Hệ thống TELEform sử dụng phần mềm TELEform của TELEform

Cardiff Software, inc. USA cho ICR. TELEform 6.2 Elite Enterprise Edition

(gồm các Module: TELEform Designer; TELEform Reader; TELEform

Verifier). Các thiết bị sử dụng trong hệ thống TELEform bao gồm 6 máy

scanner Fujitsu M4099D, 57 máy trạm và 02 máy chủ.

- Hệ thống ABBYY sử dụng phần mềm ABBYY của Cộng hòa liên bang

Nga cho ICR. Phần mềm ABBYY 6.0 Enterprise Edition (gồm các Module

sau: Form Designer; Administration Satation; Recognition Satation;

Correction Station). Các thiết bị sử dụng trong hệ thống ABBYY bao gồm 4

máy scanner Fujitsu M4099D, 30 máy trạm và 01 máy chủ.

Một số kinh nghiệm của Thái Lan khi áp dụng ICR trong xử lý điều tra:

- Có thể sử dụng giấy 80 gram/m2 để in phiếu cho công nghệ ICR. Tuy

nhiên độ dai của giấy cần tốt hơn loại giấy thông thƣờng;

- Không nhất thiết mỗi phiếu phải in số định danh, kể cả trong trƣờng

hợp phiếu nhiều trang, thì mỗi trang cũng không cần in số định danh để phân

biệt trang của các tập phiếu khác nhau.

Page 4: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

154

- Công việc vận hành quét không phải hoàn toàn tự động, mà là nửa tự

động, nửa thủ công;

- Tốc độ quét rất khác nhau, tuỳ thuộc vào số lƣợng ô trên một trang

phải nhận dạng. Ví dụ, tốc độ quét phiếu Tổng điều tra dân số năm 2000 của

Thái Lan là 20 tờ/1 phút (2 mặt). Song với phiếu Tổng điều tra nông nghiệp

năm 2003 của Thái Lan, thì tốc độ quét giảm chỉ còn một nửa (10 tờ/1 phút);

- Để nâng cao khả năng nhận dạng và thời gian hiệu chỉnh số liệu, tất cả

các ký tự nhận dạng dùng để tổng hợp đều phải bằng số;

- Để giảm khối lƣợng xác minh số liệu, điều tra viên/mã số viên phải

viết tƣơng đối chuẩn các số vào trong ô mã dành sẵn theo quy định. Không

đƣợc viết một cách cẩu thả, tuỳ tiện;

- Việc xác minh số liệu chỉ phải tiến hành đối với các ký tự mà phần

mềm nhận dạng phân vân không khẳng định chắc chắn đó là ký tự gì, chứ

không cần phải kiểm tra tất cả các ký tự;

- Phiếu thiết kế theo dạng danh sách bằng giấy 80 gram/m2. Các ô mã

trên phiếu in màu xanh để dễ nhận dạng. Ghi phiếu bằng bút chì kim HB2

của Nhật Bản sản xuất. Khi viết sai có thể dùng tẩy, tẩy đi để viết lại;

- Tập huấn cán bộ điều ra rất kỹ. Tập huấn 2 lần, mỗi lần một tuần;

- Việc bảo quản phiếu để dùng cho ICR không quá phức tạp;

2.2. Kinh nghiệm của Philipin

Cơ quan thống kê Quốc gia Philipin (NSO) bắt đầu sử dụng công nghệ

ICR trong việc xử lý tổng điều tra dân số và nhà ở và sau đó tiếp tục sử dụng

công nghệ này trong xử lý tổng điều tra nông nghiệp và thủy sản 2002. Sau

đây là một số kinh nghiệm của NSO trong việc áp dụng công nghệ ICR trong

xử lý tổng điều tra dân số 2000:

Phiếu điều tra đầu tiên đƣợc in màu nhƣng đã đƣợc cải tiến bằng cách

in đen trắng để tránh lãng phí. Để tỷ lệ nhận dạng cao, phiếu đƣợc in trên

giấy tốt, tiêu chuẩn tối thiểu 80gram/m2. Phiếu điều tra đƣợc đánh dấu

(mark) vào các ô khoanh tròn dùng trong các câu hỏi lựa chọn hoặc điền (fill)

ký tự viết tay bằng bút chì chuẩn vào những ô hình chữ nhật.

NSO tổ chức xử lý tổng điều tra dân số và nhà ở tại 4 trung tâm (Data

Capture Center – DCC). Số lƣợng phiếu xử lý phải xử lý là 15,5 triệu. Thời

gian xử lý thực hiện theo ca, 2ca/ngày, 6 ngày/tuần. Thời gian xử lý 6 tháng.

Tổng số ngƣời dùng trong xử lý tổng điều tra dân số nhà ở năm 2000 là 146

ngƣời.

Page 5: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

155

Tại mỗi Trung tâm xử lý, lập mạng LAN chạy trên hệ điều hành

Windows NT 4.0 với các thiết bị chính nhƣ: 01 máy chủ, 15 máy trạm (PC),

05 máy quét KODAK 3510 hoặc 3590 tốc độ 75 trang/phút. Riêng Trung tâm

tại Manila số máy quét nhiều hơn các Trung tâm còn lại. Tổng số máy quét

dùng trong xử lý là 22 máy.

Để sử dụng công nghệ ICR, NSO mua 02 phần mềm: phần mềm quét tài

liệu KODAK MVCS dùng để quét phiếu điều tra bằng máy quét và phần mềm

nhận dạng ký tự thông minh EYES & HANDS for FORMS. Phần mềm ICR mà

NSO mua có 3 module dùng để nhận dạng (Interpretation/Recognition), hiệu

chỉnh (Data Verification) và chuyển đổi (Data Transfer/Generation).

Kinh nghiệm sử dụng công nghệ ICR của Philipin:

- Thiết kế phiếu điều tra sử dụng công nghệ ICR dùng cả trƣờng đánh

dấu (mark) và trƣờng viết tay (handwritten). Trong thiết kế, hạn chế trƣờng

ký tự chữ để tăng tỷ lệ nhận dạng đúng;

- Chất lƣợng in phiếu điều tra cần đảm bảo;

- Trung bình 1 máy quét đƣợc 30 trang (phiếu) trong một phút;

- Tỷ lệ nhận dạng của các trƣờng đánh dấu (mark) là cao. Tỷ lệ nhận

dạng của các trƣờng viết tay là thấp. Tỷ lệ nhận dạng chung là 90-95%;

- Những vùng dữ liệu dạng text (tên chủ hộ, địa chỉ hộ) thì kết quả chƣa

chắc khả quan. Trong mẫu ký tự tiếng Philipin có một ký tự nằm ngoài bảng

chữ cái Latinh hiện nay – ký tự ñ .Việc nhận dạng ký tự này cho kết quả chƣa

cao lắm;

- Tốc độ nhận dạng 3400-3500 phiếu/giờ, hiệu chỉnh 270-320 phiếu/giờ.

Do vậy, số lƣợng bản quyền module hiệu chỉnh của mỗi Trung tâm năm 2000

chỉ có 4 là không đủ mà cần khoảng 9-10.

2.3. Kinh nghiệm của Trung Quốc

Ở Trung Quốc, việc áp dụng công nghệ quét trong xử lý số liệu điều tra

thống kê đã đƣợc thực hiện từ những năm 90 của thế kỷ trƣớc. Năm 1990 sử

dụng công nghệ quét để xử lý số liệu điều tra của 19 triệu dân ở hai tỉnh Quý

Dƣơng và Trùng Khánh. Năm 1992 sử dụng công nghệ này cho xử lý điều tra

nông nghiệp. Năm 2000 áp dụng công nghệ quét để xử lý số liệu tổng điều tra

dân số và tổng điều tra nông nghiệp. Năm 2006 sử dụng công nghệ quét để

xử lý số liệu tổng điều tra nông nghiệp lần thứ 2.

Page 6: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

156

Trong tổng điều tra dân số năm 2000, số lƣợng xử lý gấp 2 lần số lƣợng

năm 1990 nhƣng số lƣợng cán bộ và thời gian xử lý chỉ bằng 1/2 so với năm

1990 (năm 2000 sử dụng 5.000 cán bộ; xử lý trong 6 tháng).

- Bút viết chất lƣợng tốt (bút chì kim 2B do Thƣợng Hải sản xuất);

- Máy quét đã sử dụng là Kodak, Fujitsu M4097D tốc độ 40-80 tờ phút,

quét 2 mặt. Sử dụng 500 máy scanner, phân cho các tỉnh theo tỷ trọng dân số.

Riêng Bắc Kinh, Cục Thống kê nhà nƣớc chỉ cấp 01 Scanner nhƣng UBND

thành phố đã mua thêm 17 scanner;

- Giấy chất lƣợng tốt (90-100 gram/m2). Không cần in màu;

- Không cần đánh số phiếu (ID);

- Chữ Hán phải phiên thành mã số mới nhận biết đƣợc;

- Phiếu khổ A3 gấp làm đôi, ghim giữa trang A3 nên phải bóc ghim

trƣớc khi quét;

- Phần mềm xử lý do công ty Tử Quang (Trung Quốc) thiết kế nên

không phải mua phần mềm bên ngoài;

- Ghi phiếu còn khá nhiều lỗi vì vậy phải verify khá nhiều. Công tác

kiểm tra phiếu ở Trung tâm máy tính rất chặt chẽ. Mỗi lô phiếu có sai sót >

5% phải kiểm tra lại toàn bộ phiếu gốc;

- Để xử lý Tổng Điều tra Nông Nghiệp 2006, Trung Quốc mua máy

sanner và phần mềm mới;

Về sử dụng công nghệ quét trong xử lý điều tra thống kê, Trung Quốc

chủ yếu vẫn sử dụng công nghệ OCR và OMR. Công nghệ OMR đòi hỏi tiêu

chuẩn giấy phải tốt hơn, kỹ thuật in phải cao hơn, vì vậy Trung Quốc chủ yếu

sử dụng công nghệ OCR. Trung Quốc chƣa sử dụng công nghệ ICR. Trung

Quốc không có phần mềm riêng cho khâu thiết kế phiếu.

2.4. Kinh nghiệm của Lào

Trung tâm Thống kê Quốc gia Lào đã sử dụng công nghệ ICR trong xử

lý số liệu tổng điều tra dân số năm 2005. Sau đây là kinh nghiệm của Lào

trong việc sử dụng công nghệ ICR để xử lý Tổng điều tra Dân số năm 2005:

- Về giấy in: Giấy in phiếu hỏi không đƣợc bóng, trơn, giấy quá mỏng,

giấy bị bẩn; nên sử dụng giấy 80gram/m2. Không sử dụng giấy có carbon vì

sẽ gặp vấn đề khi quét.

- Chất lƣợng in: Tất cả các bảng hỏi đều phải sử dụng 1 loại máy in để

in. Chọn font chữ in là Arial hoặc OCR-B tối thiểu là size 10-12pt. Không

Page 7: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

157

chọn chữ đậm và nghiêng. Không tạo đƣờng bao quanh các trƣờng là nét

mỏng. Nên chọn đƣờng bao có nét 1 hoặc 1.5 pt là tốt nhất. Những câu hỏi

mở phải có đƣờng kẻ ngăn cách giữa các ký tự. Đối với số có phần thập phân

phải có dấu phẩy để ngăn cách.

- Phiếu điều tra đƣợc đóng thành quyển. Tổng số có khoảng 25.000

quyển phiếu (mỗi quyển có thể ghi đƣợc 40 hộ với 400 ngƣời). Dân số Lào

năm 2005 khoảng 5.600.000 ngƣời.

- Trung tâm Thống kê Lào tổ chức xử lý điều tra tập trung. Có 35 ngƣời

làm xử lý điều tra với 4 bƣớc cơ bản: Kiểm tra, mã hoá, làm bảng kê (tick

off); Quét (Scanning); Hiệu chỉnh (Verify); Tổng hợp và phân tích số liệu.

- Số ngƣời làm công việc kiểm tra, mã hoá hoặc chép lại phiếu nếu

phiếu bẩn hoặc nhầu nát là 30 ngƣời, làm việc trong 3 tháng (20 ngƣời sẽ là

những ngƣời thực hiện hiệu chỉnh trong giai đoạn tiếp theo).

- Sử dụng 01 ngƣời chuyên đánh số thứ tự (mã Serial Number) cho tất

cả các phiếu (mã này đƣợc in trƣớc, chỉ việc dán vào quyển phiếu)

- Sử dụng 01 ngƣời điều khiển máy cắt gáy quyển phiếu trƣớc khi đƣa

vào scan (1 lần cắt đƣợc 5 quyển phiếu hỏi).

- Sử dụng 01 ngƣời điều khiển máy đọc mã serial number của quyển

phiếu bằng thiết bị đọc và phần mềm của ReadSoft. Phần mềm ghi lại ngày

đọc và trạng thái của phiếu. Sau đó ghi ra 1 tờ Tick off prepaced Bookets. Tờ

này ghi lại số serial number của quyển phiếu và số tờ phiếu đã sử dụng, số tờ

phiếu chƣa sử dụng của quyển phiếu. Sau đó bỏ tờ bìa của quyển phiếu và

thay vào đó là Tick off.

- Sử dụng 02 ngƣời điều khiển 2 máy quét. Trƣớc khi quét nhập vào số

của hộp bìa sẽ đựng phiếu sau khi quét. Tốc độ quét 56 tờ/1 phút. Một lần có

thể đƣa vào máy scanner 500 tờ. Trong quá trình quét chƣơng trình sẽ thống

kê số tick off và số hộ đã quét đƣợc. Quét 2 mặt một lúc.

- Thỉnh thoảng máy có bị giắt giấy và máy tự động dừng. Sau đó phải

cho máy nghỉ và vệ sinh làm sạch máy.

- Phải làm sạch máy hàng ngày bằng chất rửa và giấy lau riêng.

- Trên máy chủ thiết kế CSDL bằng SQL Server để chuyển số liệu từ

dạng text vào SQL. Và thủ tục đƣợc chạy hàng ngày. Những file text đã

chuyển đƣợc sẽ ghi sang một thƣ mục khác. Tên file text thể hiện ngày

chuyển.

- Sau khi chuyển vào SQL, dùng SPSS để phân tích số liệu.

Page 8: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

158

Máy móc, thiết bị dùng cho xử lý đƣợc lắp đặt trong mạng LAN. Số lƣợng

thiết bị đã sử dụng nhƣ sau: 02 máy chủ; 02 máy quét (quét 2 mặt, tốc độ 56 tờ/

phút); 20 máy PC.

- Về phần mềm, Trung tâm Thống kê Lào sử dụng phần mềm Eyes &

Hands của công ty ReadSoft. Tiền thuê phần mềm Eyes & Hands là 16.000

USD/1 năm. Nếu năm sau sử dụng tiếp thì phải trả 6.000 USD/1 năm.

3. Một số vấn đề rút ra từ kinh nghiệm của các nƣớc đã sử dụng công

nghệ quét, nhận dạng ký tự trong xử lý số liệu thống kê

3.1. Lựa chọn công nghệ

Công nghệ quét là một hệ thống sử dụng để nhập dữ liệu từ phiếu điều

tra, máy fax với tốc độ nhanh và tốn ít nhân lực. Hệ thống này sử dụng máy

quét để đọc phiếu điều tra hoặc tài liệu, và một phần mềm ứng dụng sẽ đọc

hoặc định dạng tự động dữ liệu hoặc chữ số ghi trên phiếu/tài liệu, sau đó

chuyển thông tin thành file dữ liệu mã ASCII (American Standard Code for

Information Interchange) để xử lý tiếp theo. Công nghệ quét, nhận dạng có

thể chia thành công nghệ quét, nhận dạng ký tự quang học (OCR), công nghệ

đọc đánh dấu quang học (OMR), công nghệ quét, nhận dạng ký tự thông

minh (ICR). Cho đến thời điểm hiện nay, trong các công nghệ nói trên, công

nghệ quét nhận dạng ký tự thông minh ICR là công nghệ tiên tiến nhất, đƣợc

sử dụng nhiều nhất trong việc xử lý điều tra thống kê. Do vậy, nghiên cứu áp

dụng công nghệ quét, nhận dạng ký tự thông minh ICR trong xử lý số liệu

điều tra nói chung và trong xử lý số liệu Tổng Điều tra Dân số và nhà ở năm

2009 của Việt Nam là sự lựa chọn phù hợp.

3.2. Ưu điểm của công nghệ nhận biết ký tự thông minh

Sử dụng công nghệ quét, nhận dạng ký tự thông minh trong xử lý số liệu

điều tra có những ƣu điểm nhƣ: Rút ngắn thời gian xử lý, tăng độ chính xác,

hiệu suất cao, giảm giá thành.

Mặc dù công nghệ ICR có nhiều ƣu điểm đặc biệt khi xử lý các cuộc

điều tra quy mô lớn, nhƣng công nghệ này có những yêu cầu nhất định về

phiếu và ghi phiếu điều tra:

Về phiếu điều tra

- Thiết kế phiếu điều tra áp dụng công nghệ ICR trong xử lý phải đảm

bảo những yêu cầu nhất định để quét và nhận dạng đạt độ chính xác cao. Độ

cao, độ rộng của từng ô, khoảng cách giữa các ô phải đảm bảo để điều tra

viên có đủ khoảng trống để điền thông tin. Độ đậm, nhạt của đƣờng bao ô

cũng ảnh hƣởng đến kết quả nhận dạng. Tỷ lệ nhận dạng đúng ô điền ký tự và

Page 9: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

159

ô đánh dấu là khác nhau, do vậy lựa chọn kiểu ô trong thiết kế cũng ảnh

hƣởng đến kết quả nhận dạng.

- Chất lƣợng in phiếu cũng ảnh hƣởng rất nhiều đến quá trình quét, nhận

dạng. Trƣớc hết kích thƣớc phiếu in phải đảm bảo chính xác. Việc in phiếu

điều tra ở những nhà in khác nhau có thể làm lệch vị trí của các ô, lệch kích

thƣớc của các ô, lệch kích thƣớc của phiếu dẫn đến việc nhận dạng sai.

Độ dày, mỏng của phiếu điều tra cũng ảnh hƣớng rất nhiều đến kết quả.

Yêu cầu giấy in phiếu điều tra phải đảm bảo tối thiểu 80 gram/m2. Việc bảo

quản phiếu điều tra cũng đòi hỏi khắt khe hơn. Phiếu điều tra cần phải giữ

khô, không quăn, không nhàu nát. Những phiếu bị quăn, nhàu nát hoặc bị ẩm

làm chậm quá trình quét phiếu.

Về ghi phiếu điều tra:

- Chất lƣợng ghi phiếu ảnh hƣởng rất nhiều đến kết quả áp dụng công

nghệ ICR trong xử lý. Để chất lƣợng ghi phiếu tốt, một vấn đề quan trọng

trong khi ghi phiếu điều tra là phải kiểm soát đƣợc chữ viết tay của điều tra

viên. Viết xấu và ghi không đúng quy định vào phiếu điều tra sẽ gây ra nhiều

lỗi khi quét. Đặc biệt là trong tổng điều tra, một lực lƣợng lớn điều tra viên sẽ

tham gia, thƣờng khó kiểm soát đƣợc cách viết của họ. Do vậy, việc đào tạo

ghi phiếu điều tra phải đặc biệt quan tâm. Cần có mẫu ký tự chuẩn để đảm

bảo tỷ lệ nhận dạng cao. Khi lựa chọn điều tra viên, phải kiểm tra và loại bỏ

những điều tra viên ghi không đúng mẫu ký tự đã quy định.

- Để đảm bảo tỷ lệ nhận dạng cao, nét chữ khi điền phiếu phải đảm bảo

rõ ràng, không tẩy xóa. Độ rộng của nét chữ cũng ảnh hƣởng đến chất lƣợng,

do vậy ở các nƣớc đã áp dụng công nghệ ICR thƣờng sử dụng bút chì kim

chất lƣợng tốt.

PHẦN II

NGHIÊN CỨU, ÁP DỤNG CÔNG NGHỆ ICR

CỦA CÔNG TY READSOFT

Bắt đầu từ đầu năm 2006, TTTHTK đã tìm kiếm thông tin, nghiên cứu

công nghệ nhận dạng ký tự thông minh qua tài liệu của các nƣớc, thông tin

trên mạng Internet. Trong thời gian này và trƣớc đó, một số cán bộ của

TTTHTK tham gia các đoàn khảo sát các cơ quan thống kê nƣớc ngoài (Lào,

Hồng Kông, Thái Lan, Philippin) cũng thu thập đƣợc một số thông tin, kinh

nghiệm, có những hiểu biết nhất định về công nghệ này. Một số phần mềm

nhận dạng phiếu loại này đã đƣợc tìm hiểu nhƣ: hệ thống IFP (Intelligent

Form Procesing – Xử lý mẫu phiếu thông minh) của IBM, giải pháp của

Page 10: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

160

Pearson do công ty FPT giới thiệu, ABBYY của Nga, Document for FORMS

của ReadSoft, TIS (Top Image System) của Israel,...

Việc lựa chọn phần mềm là rất khó khăn do thông tin các công ty cung

cấp phần lớn chỉ mang tính giới thiệu chung về giải pháp và do chúng ta chƣa

có kinh nghiệm gì và cũng không thể tìm kiếm chuyên gia tƣ vấn ở Việt Nam.

Việc lựa chọn Document for FORMS của ReadSoft dựa trên việc ReadSoft –

Eyes & Hands đã có tiếng trên lĩnh vực này, nhiều cơ quan thống kê các nƣớc

bạn đã sử dụng. ReadSoft cung cấp đầy đủ và nhanh chóng những thông tin

cần thiết và giá phần mềm là chấp nhận đƣợc cho việc thử nghiệm.

1. Công nghệ nhận dạng ICR của ReadSoft

ReadSoft FORMS 5.2 là phần mềm xử lý tự động phiếu (Form

Automation) của công ty ReadSoft (những phiên bản cũ của phần mềm này

đƣợc gọi là “Eyes & Hands for FORMS”). ReadSoft là một trong những công

ty hàng đầu trong lĩnh vực nhận dạng. ReadSoft bắt đầu đƣa ra thị trƣờng

công nghệ ICR từ năm 1991 và cho đến nay có rất nhiều khách hàng. Riêng

trong xử lý Tổng điều tra dân số, nhiều nƣớc trong khu vực đã sử dụng phần

mềm của ReadSoft nhƣ: Malaysia, Lào, Bangladesh, Philipin,...

ReadSoft FORMS 5.2 là phần mềm tích hợp tất cả các chức năng để xử

lý phiếu: định dạng FORM, quét (scan) phiếu, nhận dạng, kiểm tra số liệu,

chuyển đối dữ liệu, quản lý các lô phiếu và dữ liệu. Phần mềm có những khả

năng sau:

- Nhận dạng đƣợc các loại ký tự ICR (chữ viết tay), OCR (chữ

in/đánh máy), OMR (ký tự đánh dấu), mã vạch, (ngoài nhận dạng các ô

đánh dấu có thể lựa chọn ký tự khoanh tròn);

- Định dạng nhiều loại mẫu phiếu và xử lý đồng thời không cần

phân loại;

- Nhiều lựa chọn khác nhau cho việc kiểm tra số liệu;

- Kiểm tra số liệu theo khối (mass verify);

- Một số kiểm tra có thể thiết lập ngay trong phần mềm (không

cần lập trình) nhƣ: kiểm tra giá trị hợp lệ theo các khoảng xác định

hoặc so sánh với các bảng tham chiếu, cộng tổng số, một số dạng kiểm

tra logic giữa các trƣờng liên quan;

- Khả năng quản lý, kiểm soát lô tƣơng đối mềm dẻo;

- Mềm dẻo trong xác định tệp dữ liệu đầu ra;

Page 11: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

161

- Quản lý ngƣời dùng và có khả năng đƣa ra thống kê ở mức

ngƣời dùng, thống kê về đầu ra cho ngƣời quản trị;

- Cho phép lập trình nhúng (built-in) trong các chức năng của

FORMS 5.2 bằng ngôn ngữ VBA;

- Cho phép tích hợp gắn kết với các chƣơng trình khác qua DDE,

DLL, ODBC, OLE, ActiveX;

- Quét màu, nhận dạng và lọc các ảnh;

- Nhập dữ liệu từ máy FAX hoặc Internet.

Phần mềm ReadSoft FORMS 5.2 có các module sau:

- Quản lý (Manager): thực hiện các chức năng nhƣ định dạng mẫu

phiếu, thiết lập thuộc tính cho các lô, cho các công đoạn trong quá

trình xử lý, thiết lập Job;

- Quét (Scan): thực hiện việc quét các lô phiếu thành dạng hình

ảnh;

- Nhận dạng (Interpret): thực hiện việc nhận dạng dữ liệu từ các

hình ảnh;

- Hiệu chỉnh (Verify): thực hiện việc nhập những dữ liệu không

nhận dạng đƣợc và kiểm tra dữ liệu;

- Chuyển đổi (Transfer): thực hiện chuyển đổi dữ liệu nhận dạng

và kiểm tra xong ra các tệp dữ liệu dạng Text.

2. Quản lý và định dạng Form trong phần mềm ReadSoft Form 5.2

Một trong những phần quan trọng trƣớc khi tiến hành quét phiếu điều

tra đó là vấn đề định dạng form cho phiếu điều tra. Trong phần mềm

ReadSoft Form 5.2, form là một tài liệu có cấu trúc bao gồm những khoảng

trống để chứa thông tin: Những câu hỏi, những ô để ghi dữ liệu, những ô

đánh dấu (checks)...Phiếu hỏi của một cuộc điều tra có thể nhiều tập phiếu

(có thể là một tờ hay nhiều tờ), mỗi form thể hiện 1 tờ phiếu trong một tập

phiếu điều tra đó, tờ phiếu có thể là 1 mặt hay 2 mặt.

Định dạng Form bao gồm việc định dạng các trƣờng định vị

(Adjustment fields) và định dạng các ô chứa thông tin trên phiếu. Để phân

biệt các tờ phiếu khác nhau ngƣời ta xác định các điểm làm mốc trên mỗi tờ

phiếu. Các điểm mốc này đƣợc gọi là điểm định vị (adjustment). Điểm định

vị có thể là một ký tự, một biểu tƣợng hay đƣờng giao nhau trên tờ phiếu

nhƣng phải là điểm duy nhất có trên tất cả các tờ phiếu. Sau khi xác định

điểm adjustment trên phiếu, điểm này sẽ xuất hiện trên phiếu có dạng hình

Page 12: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

162

vuông và đƣợc lƣu vào cơ sở dữ liệu là một trƣờng. Nếu nhƣ trong một tập

phiếu điều tra có nhiều tờ phiếu khác nhau thì các điểm adjustment đƣợc sử

dụng trên từng tờ phiếu phải có các vị trí khác nhau để tránh nhầm lẫn giữa

các tờ phiếu với nhau trong quá trình nhận dạng. Có 2 kiểu xác định vị trí

mốc trên form (adjustment field) là chọn các điểm làm mốc và chọn các

đƣờng kẻ làm mốc. Khi tiến hành quét phiếu, phần mềm sẽ kiểm tra kích cỡ,

vị trí và hình dạng của các trƣờng adjustment trên form.

Để thu đƣợc thông tin trong phiếu, những trƣờng chứa các thông tin này

phải đƣợc định nghĩa: tên trƣờng, kiểu thông tin (ô số hay ô chữ; ô đánh dấu-

Check; trƣờng ảnh - Image và loại kiểu do ngƣời sử dụng định nghĩa).

Sau khi định dạng các form definition có trong tập phiếu, ngƣời ta phải

định nghĩa tập. Định nghĩa tập (set defintion) là việc thiết lập nhằm xử lý 2

hay nhiều form tạo thành một nhóm hợp lôgic. Cần phải chọn các form

definition để làm thành một set definition (thông thƣờng tất cả các tờ phiếu

trong một tập phiếu sẽ nằm trong set definition, hay một set bao gồm một tập

phiếu. Ví dụ với phiếu Lao động việc làm: Gồm nhiều tập phiếu, mỗi tập

phiếu gồm 6 tờ phiếu khác nhau. Khi đó 1 set là 1 tập phiếu gồm có 6 form –

6 tờ phiếu). Sau đó cần phải thiết lập set logic. Mỗi set logic đƣợc chọn khác

nhau sẽ quyết định thứ tự sắp xếp việc xử lý các form trong tập phiếu khi

thực hiện các quá trình scan, interpret, verify và transfer. Set logic là một

phần của set definition, nó định rõ form definition nào, bao nhiêu form và

trong đó trình tự các form xuất hiện trong set sẽ đƣợc xử lý nhƣ thế nào? Từ

đó đƣa ra thứ tự đúng cho các tờ phiếu trong 1 tập phiếu trong quá trình quét.

Ngoài ra set logic còn quyết định đến việc khi nào một set mới đƣợc bắt đầu

(gọi là set break).

Sau khi xác định đƣợc set definition, cần xác định job decription để

quản lý các công việc trong quá trình scan, verify, interpret và transfer. Job

decription: Quản lý tất cả các module scan, verify, interpret và transfer. Batch

là một nhóm các phiếu điều tra/bảng hỏi đƣợc chia theo một tiêu chí nào đó,

phụ thuộc vào thực tế của cuộc điều tra để xác định một batch cho phù hợp,

ví dụ phiếu điều tra đƣợc sắp xếp theo từng địa bàn thì có thể chọn batch là

một hoặc nhiều hơn một địa bàn (batch bao gồm nhiều set).

3. Quét phiếu trong phần mềm ReadSoft Form 5.2

Để quét phiếu, ngƣời ta phải thiết lập thuộc tính máy quét. Các thuộc

tính của máy quét sẽ đƣợc áp dụng đối với tất cả những form definition đƣợc

tạo ra sau thời điểm thiết lập máy quét, cho đến khi các thuộc tính này đƣợc

thiết lập lại. Chỉ những form definition có cùng thuộc tính về máy quét mới

Page 13: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

163

có thể thực hiện trong cùng một Job của công đoạn quét phiếu (khi định

nghĩa các form definition của bảng hỏi có nhiều trang phiếu thì cần lƣu ý

chọn thuộc tính của máy quét trƣớc khi bắt đầu định nghĩa form để đảm bảo

các form definition có cùng thuộc tính máy quét). Các thuộc tính bao gồm

kích cỡ của phiếu; màu của ảnh sau khi quét; độ phân giải; độ sáng và độ

phân giải.

Ảnh sau khi quét có thể lƣu vào cơ sở dữ liệu hay vào từng tệp. Lƣu trữ

phiếu vào cơ sở dữ liệu phù hợp với hầu hết các phiếu điều tra nếu máy quét

nhanh, có cấu hình cao. Sau khi quét phiếu, các ô dùng để điền thông tin điều

tra đƣợc tách ra và ghi vào cơ sở dữ liệu ảnh của phần mềm. Khi đó, cơ sở dữ

liệu này sẽ đƣợc dùng để nhận dạng. Ngoài ra, thông tin của toàn bộ phiếu

cũng đƣợc ghi vào cơ sở dữ liệu. Lựa chọn này, yêu cầu dung lƣợng đĩa trống

ít nhất vì chỉ lƣu trữ những ô thông tin của phiếu. Tuy nhiên, kích cỡ của cơ

sở dữ liệu ảnh của phần mềm tăng rất nhanh nếu phiếu có nhiều ô thông tin,

dẫn đến làm chậm quá trình quét phiếu. Nếu chọn giải pháp lƣu trữ vào tệp,

sau khi quét phiếu, ảnh của mỗi form sẽ đƣợc lƣu vào từng tệp riêng biệt. Sau

đó, phần mềm sẽ sử dụng những tệp ảnh này thay vì sử dụng cơ sở dữ liệu

ảnh. Sau khi biên dịch nhận dạng (Interpret), các tệp chứa ảnh sẽ đƣợc xoá,

ngoại trừ trƣờng hợp ảnh đã đƣợc xuất ra tệp trong quá trình quét phiếu. Các

tệp ảnh này đƣợc lƣu trong thƣ mục đƣợc chỉ ra bởi đƣờng dẫn trong hộp

thoại Directories của tab Scan. Thông thƣờng, các tệp ảnh đen trắng sẽ có

định dạng là TIFF, tệp ảnh màu thƣờng có định dạng PNG. Tuy nhiên, định

dạng của tệp đƣợc chọn trong tab Export sẽ đƣợc áp dụng nếu có chọn xuất

ảnh. Hình thức lƣu trữ này sẽ làm tăng tốc độ quét phiếu nhƣng làm giảm tốc

độ nhận dạng phiếu.

4. Nhận dạng ký tự trong phần mềm ReadSoft Form 5.2

Phần mềm ReadSoft FORM 5.2 có thể nhận dạng đƣợc các ký tự in/đánh

máy (machine-printed characters), ký tự viết tay (handwritten characters), ký tự

đánh dấu (mark), các ký tự đƣợc khoanh tròn (circled), các ký tự bị gạch ngang

(crossed) hoặc các mã vạch (barcode). Phần mềm này cũng nhận dạng đƣợc các

ký tự đặc biệt của 25 ngôn ngữ trên thế giới. Tuy nhiên đối với ngôn ngữ

tiếng Việt, phần mềm này hiện chƣa thể nhận dạng đƣợc. Tốc độ nhận dạng

của các phiên bản khác nhau thì khác nhau, cả đối với nhận dạng ký tự in lẫn

ký tự viết tay. Phiên bản Interpret trong FORM 5.2 là Interpret 150 với tốc

độ nhận dạng 150 ký tự/1 giây.

Để bắt đầu một quá trình nhận dạng, việc đầu tiên là phải mở một job

nhận dạng nếu đã có hoặc tạo ra một job nhận dạng mới để chỉ rõ những form

nào sẽ đƣợc nhận dạng và nơi đặt các form đó ở đâu. Sau đó bắt đầu quá trình

Page 14: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

164

nhận dạng bằng cách chọn nút Start trong menu Job. Thời gian thực hiện

nhận dạng ít hay nhiều phụ thuộc vào độ lớn các form đƣợc xử lý. Khi bắt

đầu nhận dạng, một hộp thông tin về tình trạng, ngày, giờ hiện tại xuất hiện.

Khi bắt đầu một job nhận dạng, các thông tin về tình trạng, ngày, thời

gian hiện tại, ngày và thời gian bắt đầu, thời gian thực hiện đƣợc xuất hiện

trong hộp Run Control. Biểu đồ thống kê hình cột cũng chỉ ra số lƣợng form

mỗi loại đã đƣợc nhận dạng. Một hộp Character Statistics cũng chỉ ra tổng số

các ký tự đƣợc kiểm tra, số lƣợng ký tự nhận dạng đƣợc chắc chắn, số lƣợng

ký tự không chắc chắn nhận dạng đƣợc, số lƣợng ký tự không nhận dạng

đƣợc, mức độ nhận dạng thành công (tỷ lệ phần trăm).

Khi kết thúc nhận dạng một form, thông tin về tình trạng kết quả nhận

dạng của form và các trƣờng của form đƣợc lƣu giữ trong cơ sở dữ liệu.

Thông thƣờng module nhận dạng đƣợc chạy tự động trên máy chủ. Có thể

nhận dạng ngay (cùng lúc với quét), hoặc chạy riêng sau khi quét.

5. Hiệu chỉnh dữ liệu trong phần mềm ReadSoft Form 5.2

Verify là công đoạn đƣợc thực hiện sau công đoạn nhận dạng dữ liệu từ

các hình ảnh (Interpret). Đây là công đoạn thực hiện việc nhập dữ liệu không

nhận dạng đƣợc, nhận dạng chƣa chắc chắn và kiểm tra dữ liệu. Đây cũng là

công đoạn tốn nhiều thời gian và nhân công nhất khi xử lý phiếu điều tra

bằng công nghệ Scanning. Ngƣời thực hiện Verify làm việc với từng Batch

một (một Batch có thể là một địa bàn tuỳ thuộc vào ngƣời thực hiện công

đoạn Scan qui định). Ngƣời Verify có thể gọi thực hiện, tạm dừng, kết thúc

một Batch. Một Batch đƣợc gọi là hoàn thành khi tất cả các ký tự cần nhận

dạng trên Batch đó đã đƣợc ngƣời thực hiện Verify chấp nhận.

Những ký tự (bao gồm cả chữ số và chữ cái) phần mềm không nhận

dạng đƣợc sẽ đƣợc chuyển thành dấu (*) để ngƣời thực hiện Verify nhập lại.

Những ký tự mà phần mềm nhận dạng không chắc chắn sẽ đƣợc phần mềm

tự gán một giá trị tạm thời nào đó, ngƣời thực hiện Verify phải kiểm tra và

sửa lại giá trị này. Ngƣời thực hiện verify phải căn cứ vào file ảnh và giá trị

nhận dạng hoặc bảng hỏi (trƣờng hợp chữ viết quá mờ không thể nhìn rõ trên

ảnh thì dùng bảng hỏi giấy) để nhập lại giá trị chính xác. Phần mềm ReadSoft

Form 5.2 cung cấp 2 chế độ verify: verify nhanh và verify thông thƣờng.

Sau khi ngƣời thực hiện Verify sửa xong tất cả các lỗi không nhận

dạng đƣợc và nhận dạng không chắc chắn, phần mềm cung cấp chức năng

kiểm tra số liệu theo từng lô. Phần mềm cho phép chọn bao nhiêu Form

(thông thƣờng một Form là 2 trang của một tờ phiếu) cho 1 lần kiểm tra.

Những kí tự phần mềm nhận dạng đƣợc (trừ những ký tự không nhận dạng

đƣợc và nhận dạng không chắc chắn đã đƣợc ngƣời thực hiện Verify sửa) của

Page 15: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

165

các Form trong lƣợt Mass verify sẽ hiển thị ở đây để ngƣời thực hiện Verify

kiểm tra lại. Mass verify hiển thị số liệu theo dãy số từ 0 đến 9 và theo thứ tự

từ a đến z.

Trong trƣờng hợp phiếu ghi quá mờ, nhìn hình ảnh ngƣời thực hiện

Verify không thể khẳng định đƣợc giá trị đúng, phải tìm lại phiếu giấy để

nhập mà đặt số Form cho 1 lô quá nhiều thì việc tìm đi tìm lại một tờ phiếu là

có xảy ra, dẫn đến rất tốn thời gian và công sức. Những kí tự phần mềm nhận

dạng sai, ngƣời thực hiện Verify dùng con trỏ đánh dấu kí tự đó (đánh dấu

nhầm có để đánh dấu lại), phần mềm sẽ chuyển con trỏ đến đúng vị trí của kí

tự nhận dạng sai để ngƣời thực hiện Verify sửa lại.

Phần kiểm tra số liệu theo lô đòi hỏi ngƣời thực hiện phải quan sát thật

kỹ, không bỏ sót những kí tự nhận dạng sai. Hiện tại nhóm nghiên cứu chƣa

tìm thấy chức năng của phần mềm cho phép quay lại Mass verify khi phát

hiện ra còn kí tự nhận dạng sai chƣa đƣợc đánh dấu.

Công cụ của ReadSoft Form 5.2 chỉ cho phép thiết lập những kiểm tra

đơn giản nhƣ loại trƣờng, khoảng giá trị, cộng tổng... Việc thiết lập những

kiểm tra đơn giản trong ReadSoft Form 5.2 là không đáp ứng đƣợc đối với

các cuộc điều tra thống kê có những giá trị đặc biệt nhƣ không nhớ, không

biết, không xác định. Do vậy việc lập trình bằng các ngôn ngữ lập trình khác

để kiểm tra logic, chỉnh sửa số liệu là cần thiết. Để khắc phục các hạn chế

nêu trên cần phải nhúng các ngôn ngữ lập trình vào bên trong phần mềm

ReadSoft FORMS 5.2. Việc nhúng các ngôn ngữ lập trình trong chức năng

Scan có thể giúp việc kiểm tra logic giữa các câu hỏi trên các Form khác

nhau của cùng một tập phiếu hoặc ghi nhật ký công việc khi quét phiếu và

chuyển dữ liệu này vào cơ sở dữ liệu quản lý, thay cho công việc phải ghi

nhận nhật ký thủ công vào sổ ghi chép v.v.

6. Chuyển đổi dữ liệu trong phần mềm ReadSoft Form 5.2

Chuyển đổi dữ liệu (Transfer) là việc chuyển những dữ liệu đã đƣợc mã

hoá trong cơ sở dữ liệu của phần mềm Readsoft Form 5.2 thành những file dữ

liệu phẳng ra có cấu trúc dễ khai thác hơn theo các dạng khác nhau nhƣ :

Text, Doc, Excel, … Tuỳ ngƣời quản lý, tuỳ từng bài toán, tuỳ từng cách thức

mà ngƣời chuyển đổi có thể đƣa ra cấu trúc, dạng của file đầu ra hợp lý để

khi khai thác đƣợc dễ dàng thuận lợi.

Page 16: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

166

PHẦN III

NGHIÊN CỨU VẤN ĐỀ THIẾT KẾ, IN VÀ GHI PHIẾU

ĐIỀU TRA KHI ÁP DỤNG CÔNG NGHỆ ICR TRONG XỬ LÝ

1. Thiết kế phiếu điều tra áp dụng công nghệ quét, nhận dạng

Để có thể dùng ICR trong Tổng điều tra dân số 2009, Vụ Thống kê Dân

số và Lao động (DSLĐ) đã phân công cán bộ tìm hiểu về công nghệ này. Vì

đây là lần đầu tiên tiếp cận công nghệ ICR, các cán bộ của Vụ DSLĐ bắt đầu

tìm hiểu trên internet từ thiết kế phiếu đến thiết bị và kinh nghiệm của các

nƣớc trong khu vực.

Công ty PEARSON NCS có bán phần mềm thiết kế phiếu dùng cho

công nghệ quét. Đại diện của Công ty đó ở Việt Nam đã dùng phần mềm

chuyên dụng của họ thiết kế thảo phiếu điều tra biến động dân số năm 2006.

Phiếu đƣợc thiết kế chuyên nghiệp, đẹp kèm theo số thứ tự của mỗi tập phiếu

ở từng trang. Nhƣng muốn in nhƣ vậy thì hoặc phải nhập máy điều khiển và

máy in chuyên dụng, hoặc in phiếu từ nƣớc ngoài gửi về. Đây là điều khó có

thể áp dụng. Vụ Dân số đã quyết định dùng Microsoft Word để thiết kế phiếu.

1.1. Thiết kế phiếu điều tra biến động dân số, nguồn lao động và KHHGĐ

1/4/2006

Thiết kế phiếu:

- Để tiến hành việc thử nghiệm công nghệ mới (scanning) trong xử lý số

liệu, phiếu điều tra năm 2006 đƣợc thiết kế bao gồm 2 loại với nội dung

tƣơng tự nhau, chỉ khác nhau ở cách ghi: Loại thứ nhất, với chất lƣợng giấy

in và thiết kế đặc biệt dành riêng cho tỉnh Bắc Ninh, dùng để thử nghiệm

cách ghi phiếu và ứng dụng việc xử lý bằng công nghệ mới; Loại thứ hai, với

chất lƣợng giấy và thiết kế chung cho 63 tỉnh/thành phố còn lại.

- Phiếu của Bắc Ninh đƣợc thiết kế với mã trả lời đi kèm các ô vuông

nhỏ hoặc các ô vuông to. Kích thƣớc các ô vuông là 2,5mm x 2,5mm đối với

ô vuông nhỏ và 5mm x 5mm đối với ô vuông to. Khoảng cách giữa các ô

vuông nhỏ là 1,5mm và không có khoảng cách giữa các ô vuông to.

- Phiếu đƣợc thiết kế trên khổ giấy A3, 2 mặt và có các nét cắt để có thể

cắt phiếu thành khổ A4 (nếu không thể scan bằng khổ A3 đƣợc).

- Các đƣờng bao quanh các ô vuông tƣơng đối đậm nét.

- Các dấu định vị to, đƣợc đặt tại các vị trí giống nhau đối với cả 2 mặt

phiếu và sát với các thông tin trên phiếu.

- Giấy in phiếu quá mỏng.

Page 17: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

167

- Bút chì viết mờ.

Kết quả thử nghiệm:

Khi thực hiện, chỉ thực hiện thử nghiệm quét đƣợc 4 địa bàn (trong

tổng số 60 địa bàn) của Bắc Ninh. Nguyên nhân là do một số lỗi sau:

- Giấy in mỏng nên hay bị kẹt.

- Bút chì viết mờ, nên nhiều trƣờng hợp không nhận dạng đƣợc.

- Các ô đánh dấu sát nhau quá, nên điều tra viên đánh dấu ô này quá tay

một chút thì phần mềm có thể nhận dạng sang ô khác.

- Phiếu có màu không sáng rõ, nên nhiều trƣờng số không nhận dạng

đƣợc.

- Vì bút chì mờ và ảnh scan không rõ nên khi verify rất mất thời gian,

thậm chí phải tìm lại từng tờ phiếu.

- Các dấu định vị sát các thông tin của phiếu, nên có một vài dấu định vị

không có tác dụng. Đặc biệt các dấu định vị đƣợc đặt tại các vị trí giống nhau

đối với cả 2 mặt phiếu, nên phần mềm đã nhận dạng nhầm mặt 1 và 2 của tờ

phiếu.

- Máy scan có thể quét đƣợc phiếu khổ A3, 2 mặt.

1.2. Thiết kế phiếu điều tra biến động dân số và KHHGĐ 1/4/2007

Thiết kế phiếu:

- Rút kinh nghiệm từ phiếu “Điều tra biến động dân số, nguồn lao động

và KHHGĐ 1/4/2006” của Bắc Ninh, năm 2007, Vụ Thống kê Dân số và Lao

động chỉ thiết kế 1 loại phiếu dùng chung cho 64 tỉnh/thành phố, nhƣng chỉ

chọn tỉnh Bắc Giang để thử nghiệm ghi phiếu và ứng dụng công nghệ quét

khi xử lý, các tỉnh còn lại vẫn nhập tin theo phƣơng pháp truyền thống.

- Phiếu “Điều tra biến động dân số và KHHGĐ 1/4/2007” đƣợc thiết kế

với mã trả lời đi kèm các ô nhỏ hoặc các ô to. Kích thƣớc các ô là 2,5mm x

2,5mm đối với ô nhỏ và 5mm x 6mm đối với ô to. Khoảng cách giữa các ô

nhỏ là 2,5mm và không có khoảng cách giữa các ô to.

- Phiếu đƣợc thiết kế trên khổ giấy A3, 2 mặt.

- Các đƣờng bao quanh các ô mảnh và nhỏ hơn.

- Các dấu định vị nhỏ, gọn và có khoảng cách vừa phải với các thông tin

trên phiếu.

- Giấy in phiếu dầy hơn năm 2006.

Page 18: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

168

- Điều tra viên sử dụng bút chì kim để ghi phiếu.

Kết quả thử nghiệm:

Khi thử nghiệm, thực hiện quét đƣợc toàn bộ 60 địa bàn của Bắc Giang.

Kết quả nhƣ sau:

- Tốc độ quét nhanh, giấy ít bị kẹt.

- Số phiếu lỗi trong quá trình quét gần nhƣ không có.

- Tỷ lệ nhận dạng là 95%, số còn lại thì verify cũng rất nhanh.

1.3. Thiết kế phiếu điều tra lao động và việc làm năm 2007

Thiết kế phiếu:

- Rút kinh nghiệm từ phiếu “Điều tra biến động dân số, nguồn lao động

và KHHGĐ 1/4/2006” của Bắc Ninh và phiếu “Điều tra biến động dân số và

KHHGĐ 1/4/2007”, Vụ Thống kê Dân số và Lao động đã thiết kế phiếu

“Điều tra lao động và việc làm năm 2007”, thử nghiệm ghi phiếu và ứng

dụng công nghệ quét cho cả 64 tỉnh/thành phố.

- Phiếu “Điều tra lao động và việc làm năm 2007” đƣợc thiết kế với mã

trả lời đi kèm các ô nhỏ hoặc các ô to. Kích thƣớc các ô là 3mm x 3mm đối

với ô nhỏ và 6mm x 8mm đối với ô to. Khoảng cách giữa các ô nhỏ là 3mm

và khoảng cách giữa 2 dòng có ô mã to là 2,5mm.

- Phiếu đƣợc thiết kế trên khổ giấy A3, đóng ghim ở giữa và phải cắt

phiếu thành khổ A4 trƣớc khi scan.

- Các đƣờng bao quanh các ô mảnh và nhỏ hơn.

- Tại các trang lẻ đều có thông tin định danh của hộ và việc ghi lại các

thông tin định danh này là bắt buộc đối với mỗi tờ phiếu.

- Các trang phiếu đều có dấu định vị nhỏ, gọn tại các vị trí khác nhau và

có khoảng cách vừa phải với các thông tin trên phiếu.

- Giấy in phiếu dầy hơn.

- Điều tra viên sử dụng bút chì kim để ghi phiếu.

Kết quả thử nghiệm:

Thử nghiệm quét toàn bộ 60 địa bàn của Bắc Giang. Kết quả nhƣ sau:

- Tốc độ quét nhanh, giấy ít bị kẹt.

- Số phiếu lỗi trong quá trình quét gần nhƣ không có.

Page 19: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

169

- Tỷ lệ nhận dạng khoảng 97%, số còn lại thì verify cũng tƣơng đối

nhanh.

Từ kết quả trên, rút ra kết luận sau:

Có thể dùng Microsoft Word để thiết kế phiếu để áp dụng ICR

cùng với máy quét FUJITSU và phần mềm quét của công ty READSOFT

Thuỵ Điển.

Nếu tập phiếu có nhiều trang, in các thông tin định danh vào một

mặt của các trang khác nhau để có thể liên kết dữ liệu của cùng một tập

phiếu với nhau, hoặc liên kết dữ liệu của đối tƣợng khác nhau của cùng

một đơn vị điều tra.

Có thể dùng phiếu khổ A3 hoặc A4.

Giấy in có trọng lƣợng ít nhất là 80g/m2 và có độ dai thích hợp.

Việc bảo quản phiếu phải đƣợc quan tâm đặc biệt, tránh bị ẩm,

bị ngấm nƣớc, bị quăn mép. Chuyển phiếu từ địa phƣơng về Trung tâm

Tính toán phải đƣợc để trong hộp, không đƣợc để trong tải.

Nên dùng bút chì kim mềm 2B chất lƣợng tốt để ghi phiếu. Khi

ghi phiếu phải rõ ràng, nét viết phải liền, mẫu các chữ số nhƣ khuyến nghị

ở trang bìa của phiếu.

2. Ghi phiếu điều tra áp dụng công nghệ quét, nhận dạng

2.1. Cách ghi phiếu điều tra biến động dân số, nguồn lao động và KHHGĐ

1/4/2006

- Để tiến hành việc thử nghiệm công nghệ mới (scanning) trong xử lý số

liệu, phiếu điều tra năm 2006 đƣợc thiết kế bao gồm 2 loại với nội dung

tƣơng tự nhau, chỉ khác nhau ở cách ghi: Loại thứ nhất, với chất lƣợng giấy

in và thiết kế dành riêng cho tỉnh Bắc Ninh, dùng để thử nghiệm cách ghi

phiếu và ứng dụng việc xử lý bằng công nghệ mới; Loại thứ hai, với chất

lƣợng giấy và thiết kế chung cho 63 tỉnh/thành phố còn lại.

- Trong cuộc điều tra 2006 ở Bắc Ninh, điều tra viên đều sử dụng bút chì

mềm 2B để ghi phiếu điều tra. Nếu ghi sai, dùng tẩy để xoá đi thông tin sai,

sau đó ghi lại thông tin đúng.

Khi thực hiện, chỉ thực hiện thử nghiệm scan đƣợc 4 địa bàn (trong

tổng số 60 địa bàn) của Bắc Ninh. Nguyên nhân là do một số lỗi sau:

- Bút chì viết mờ, nên nhiều trƣờng hợp không nhận dạng đƣợc.

Page 20: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

170

- Các ô đánh dấu sát nhau quá, nên điều tra viên đánh dấu ô này quá tay

một chút thì phần mềm có thể nhận dạng sang ô khác.

- Phiếu có màu không sáng rõ, nên nhiều trƣờng số không nhận dạng

đƣợc.

- Vì bút chì mờ và ảnh scan không rõ nên khi verify rất mất thời gian,

thậm chí phải tìm lại từng tờ phiếu.

2.2. Cách ghi phiếu điều tra biến động dân số và KHHGĐ 1/4/2007

- Rút kinh nghiệm từ phiếu “Điều tra biến động dân số, nguồn lao động

và KHHGĐ 1/4/2006” của Bắc Ninh, năm 2007, Vụ Thống kê Dân số và Lao

động chỉ thiết kế 1 loại phiếu dùng chung cho 64 tỉnh/thành phố, nhƣng chỉ

chọn tỉnh Bắc Giang để thử nghiệm ghi phiếu và ứng dụng công nghệ quét

khi xử lý, các tỉnh còn lại vẫn nhập tin theo phƣơng pháp truyền thống.

- Với Bắc Giang, điều tra viên và đội trƣởng sẽ sử dụng bút chì và tẩy để

ghi thông tin vào phiếu. Loại bút chì đƣợc dùng là bút chì kim mềm 2B

0,5mm của Nhật hoặc của Đức. Cần viết sao cho nét chữ đều và rõ.

- Đối với các tỉnh không đƣợc chọn để thử nghiệm công nghệ quét, điều

tra viên sử dụng bút bi đen để ghi phiếu điều tra. Đội trƣởng sẽ thực hiện

công việc của mình bằng bút bi đỏ để đánh dấu những vị trí có sai sót, song

nếu muốn gạch chéo vào ô vuông nhỏ hoặc ghi thông tin vào ô vuông to, thì

cũng phải dùng bút bi đen.

Khi xử lý, scan đƣợc toàn bộ 60 địa bàn của Bắc Giang. Kết quả nhƣ

sau: tỷ lệ nhận dạng là 95%, số còn lại thì verify cũng rất nhanh.

2.3. Cách ghi phiếu điều tra Lao động và Việc làm năm 2007

- Rút kinh nghiệm từ phiếu “Điều tra biến động dân số, nguồn lao động

và KHHGĐ 1/4/2006” của Bắc Ninh và phiếu “Điều tra biến động dân số và

KHHGĐ 1/4/2007”, Vụ Thống kê Dân số và Lao động đã thiết kế phiếu

“Điều tra Lao động và Việc làm năm 2007”, thử nghiệm ghi phiếu và ứng

dụng công nghệ quét cho cả 64 tỉnh/thành phố.

- Trong cuộc điều tra lao động và việc làm năm 2007, tất cả các tỉnh đều

thử nghiệm công nghệ quét, nên điều tra viên và Tổ trƣởng sẽ sử dụng bút chì

và tẩy để ghi thông tin vào phiếu. Loại bút chì đƣợc dùng là bút chì kim mềm

2B 0,7mm của Nhật hoặc của Đức. Cần viết sao cho nét chữ đều và rõ.

Page 21: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

171

3. Lựa chọn điều tra viên

Những yêu cầu đặt ra ở phần trên cho thấy rằng lựa chọn điều tra viên

nhƣ thế nào đó để có thể hạn chế thấp nhất sai sót khi ghi phiếu là một trong

những quan tâm khi áp dụng công nghệ ICR.

Thực tế trong những thử nghiệm vừa qua cho thấy những vấn đề sau:

Khi sử dụng bút chì, có không ít điều tra viên viết rất mờ, máy

quét không thể nhận dạng đƣợc.

Khi sử dụng bút chì, trong trƣờng hợp viết sai, có những điều tra

viên không tẩy thông tin sai, mà chữa đè lên làm cho máy nhận dạng

sai hoặc không nhận dạng đƣợc.

Khi sử dụng bút chì, trong trƣờng hợp viết sai, có những điều tra

viên có dùng tẩy để tẩy thông tin sai, nhƣng tẩy không sạch, làm nét

viết trƣớc vẫn còn làm cho máy nhận dạng sai hoặc không nhận dạng

đƣợc.

Nhiều điều tra viên không tuân thủ đúng các hƣớng dẫn chuyển,

gây khó khăn cho việc xác minh (verify) số liệu. Nếu nhập tin bằng

phƣơng pháp truyền thống từ bàn phím, những ngƣời nhập tin có thể

đƣợc hƣớng dẫn để khắc phụ tình trạng này. Nhƣng với công nghệ ICR

thì không thể làm nhƣ vậy, việc khắc phục hiện tƣợng này rất mất công

sức và thời gian.

Trong các cuộc điều tra có phiếu thử nghiệm đề cập ở trên, điều tra viên

chủ yếu là các cán bộ thống kê cấp huyện. Phần còn lại là các cán bộ văn

phòng thống kê của cấp xã hoặc ngƣời địa phƣơng. Ngoại trừ điều tra thử lần

3 của Tổng điều tra dân số, tất cả điều tra viên là ngƣời của địa phƣơng. Nhƣ

vậy, có thể thấy rằng trình độ học vấn của các điều tra viên trong các điều tra

có phiếu trong các thử nghiệm đề cập ở trên cao hơn so với mức của các điều

tra viên trong Tổng điều tra, do số lƣợng điều tra viên của Tổng điều tra đƣợc

huy động cao gấp nhiều lần so với các điều tra mẫu đã quan sát.

Để chọn điều tra viên đáp ứng đƣợc đòi hỏi của công nghệ ICR, ngoài

trình độ học vấn và đủ sức khoẻ làm việc tối thiểu cần có, tính cẩn thận và

tính kỷ luật là ƣu tiên hàng đầu. Tính cẩn thận đảm bảo không viết quá ngoáy

để máy quét có thể nhận dạng đúng; bảo quản phiếu tốt để phiếu không bị

quăn mép gây tắc khi quét. Tính kỷ luật đảm bảo điều tra viên làm đúng theo

nhiệm vụ, yêu cầu quy định. Ví dụ, khi dùng bút chì, nếu viết sai, theo hƣớng

dẫn, cần phải tẩy sạch, thì phải làm đúng là tẩy sạch, không còn nét bút cũ.

Page 22: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

172

Hoặc trong trƣờng hợp dùng bút bi, nếu ghi sai, theo hƣớng dẫn dùng băng

keo xoá thông tin trong ô, thì không đƣợc xoá toàn bộ ô.

Trong các cuộc điều tra mẫu vừa qua, có nhiều điều tra viên ghi mờ, làm

sai một cách hệ thống. Đến khi kết thúc điều tra mới phát hiện ra, đã phải tô

lại các chữ số trên phiếu điều tra. Khi tô lại, nét viết trƣớc không trùng với

nét viết sau, gây cho máy nhận biết sai hoặc không nhận biết đƣợc.

Đào tạo điều tra viên

Công tác đào tạo điều tra viên khi áp dụng công nghệ ICR cần đáp ứng

đƣợc những yêu cầu sau :

a) Thời gian đào tạo

Thời gian đào tạo phải đủ dài để có thể trang bị đầy đủ kiến thức cho

điều tra viên. Nói chung các khoá đào tạo do Trung ƣơng tổ chức thƣờng bố

trí đủ thời gian để có thể truyền đạt kiến thức cho điều tra viên. Tuy nhiên,

khi triển khai xuống cấp tỉnh, thời gian tập huấn thƣờng bị rút ngắn lại. Cán

bộ cấp dƣới thƣờng có kiến thức về điều tra ít hơn cán bộ cấp trên, nên thời

gian tập huấn cho cán bộ cấp dƣới phải nhiều hơn.

Trong Tổng điều tra, do số lƣợng điều tra viên nhiều nên công tác đào

tạo phải tiến hành theo nhiều cấp. Ví dụ, với Tổng điều tra dân số của nƣớc

ta, do số lƣợng cán bộ điều tra lớn (250 ngàn ngƣời), công tác đào tạo nghiệp

vụ điều tra thƣờng đƣợc tiến hành theo 3 cấp. Trung ƣơng tập huấn cho cấp

tỉnh; tỉnh tập huấn cho giảng viên cấp huyện; và cuối cùng, là giảng viên cấp

huyện tập huấn cho điều tra viên. Cần phải có cơ chế và biện pháp để giám

sát công tác đào tạo để thời gian tập huấn ở mỗi cấp đƣợc đảm bảo. Không

thể để thời gian tập huấn bị rút ngắn một cách tuỳ diện.

b) Tài liệu đào tạo

Tài liệu đào tạo phải đƣợc xây dựng đầy đủ. Trƣớc đây, tài liệu nghiệp vụ

điều tra thƣờng đƣợc chuẩn bị một loại gọi là “Sổ tay điều tra viên” hoặc tài liệu

“Hƣớng dẫn nghiệp vụ điều tra”. Có nghĩa rằng các cấp đào tạo dùng chung một

loại tài liệu. Điều đó có thể dẫn đến công tác đào tạo không hiệu quả.

Nhƣ đã nói ở trên, các đối tƣợng đào tạo ở mỗi cấp có trình độ khác

nhau. Vì vậy, đào tạo cái gì, nhƣ thế nào, chƣơng trình đào tạo ra sao … đối

với mỗi cấp phải đƣợc thiết kế khác nhau. Chƣơng trình đào tạo cần phải đề

cập chi tiết đến kế hoạch thời gian, buổi nào trình bày cái gì trong vòng bao

nhiêu lâu. Nhƣ vậy, nếu đào tạo 3 cấp, ngoài những tài liệu thông thƣờng nhƣ

“Sổ tay điều tra viên”, “Sổ tay giám sát viên”, phải xây dựng bổ sung các tài

liệu sau:

Page 23: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

173

Hƣớng dẫn đào tạo cho giảng viên cấp tỉnh, tài liệu này giảng

viên trung ƣơng sử dụng khi đào tạo giảng viên cấp tỉnh; giảng viên cấp tỉnh

sử dụng khi đào tạo giảng viên cấp huyện.

Hƣớng dẫn đào tạo cho điều tra viên. Tài liệu này dùng cho

giảng viên cấp huyện khi đào tạo điều tra viên.

Lý do cần phải có tài liệu hƣớng dẫn đào tạo: giảng viên của cuộc điều

tra không phải là giảng viên chuyên nghiệp. Họ không có kinh nghiệm viết

giáo án. Tài liệu hƣớng dẫn đào tạo là giáo án để giảng viên sử dụng.

c) Công cụ đào tạo

Các công cụ đào tạo đóng vai trò rất quan trọng cho sự thành công

của công tác này. Không nên xem nhẹ công cụ đào tạo. Cũng không nhất

thiết phải dùng tất cả các công cụ đào tạo hiện đại. Đối với học viên trình độ

hạn chế, việc dùng power point thay cho dùng phấn và bảng chƣa hẳn đã là

biện pháp tốt. Mục đích của công tác đào tạo điều tra viên là sau khi kết

thúc khoá học, họ có khả năng phỏng vấn đƣợc đối tƣợng điều tra và ghi

đúng phiếu theo quy định. Vì vậy, ngoài việc phiếu điều tra đƣợc phát cho

học viên, cũng cần có một bản to treo trên lớp để học viên tiện theo dõi và

thực tập ghi phiếu.

d) Phương pháp đào tạo

Ngoài việc giảng viên truyền đạt kiến thức cho học viên, có một số biện

pháp sau nên đƣợc áp dụng:

Đóng kịch: một phƣơng pháp thƣờng đƣợc áp dụng trong trong đào tạo

điều tra viên là “đóng kịch”.

- Thực tập ghi phiếu tại địa bàn

Cần có thực tập một thời gian ở địa bàn để điều tra viên làm quen với tất

cả công đoạn của một cuộc phỏng vấn hộ, từ khâu nhỏ nhất (ví dụ nhƣ: chào

đối tƣợng điều tra, cảm ơn đối tƣợng điều tra) đến cách thức phỏng vấn. Việc

này nhằm làm cho điều tra viên không cảm thấy bỡ ngỡ khi thực thi nhiệm

vụ. Để làm đƣợc việc đó, ngƣời tổ chức lớp học cần liên hệ một khu vực dân

cƣ gần địa điểm tập huấn để học viên đi thực tập.

- Kiểm tra cuối khoá đào tạo

Cần tiến hành kiểm tra cuối khoá học. Việc này nhằm hai mục đích,

thứ nhất là xem còn những vấn đề gì học viên chƣa hiểu đúng để cuối khoá

giải đáp; thứ 2 là có thể đánh giá tƣơng đối chính xác năng lực của điều tra

Page 24: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

174

viên nhằm chọn tổ trƣởng điều tra (những ngƣời có kết quả kiểm tra tốt) và

phát hiện những ngƣời không đủ khả năng đáp ứng đƣợc nhu cầu công việc.

Một vấn đề quan trọng là phải kiểm soát đƣợc chữ viết tay (tự dạng)

của điều tra viên. Viết xấu và ghi không đúng quy định vào phiếu điều tra sẽ

gây ra nhiều lỗi khi quét, khi xác minh số liệu. Đặc biệt là trong Tổng điều

tra, một lực lƣợng lớn điều tra viên sẽ tham gia, thƣờng khó kiểm soát đƣợc

cách viết của họ. Để điều tra viên có thể ghi phiếu đáp ứng đƣợc đòi hỏi của

công nghệ ICR, thì ngoài việc lựa chọn và đào tạo nhƣ đề cập ở trên, cần có

sự quyết tâm cao của các cấp lãnh đạo, phải có cơ chế giám sát chặt chẽ trong

quá trình điều tra. Công tác giám sát cần đƣợc coi trọng, tiến hành thƣờng

xuyên, mọi lúc mọi nơi để đảm bảo rằng các sai sót phải đƣợc phát hiện sớm

nhất có thể và đƣợc sửa chữa, uốn nắn ngay. Tránh tình trạng lỗi không phát

hiện kịp thời, để sai nhiều phiếu, việc sửa chữa tốn thời gian và có thể khó

đáp ứng đƣợc những yêu cầu của công nghệ ICR.

PHẦN IV

KẾT QUẢ THỬ NGHIỆM ÁP DỤNG CÔNG NGHỆ ICR

TRONG XỬ LÝ ĐIỀU TRA

1. Thử nghiệm công nghệ ICR với phiếu điều tra BĐDS năm 2006 của

tỉnh Bắc Ninh

Các công việc cụ thể đã tiến hành với việc thử nghiệm công nghệ ICR

với cho phiếu điều tra BĐDS 2006 nhƣ sau:

1.1. Nghiên cứu phần mềm, thiết lập hệ thống ứng dụng đối với phiếu điều

tra BĐDS 2006

Đối với mỗi phiếu điều tra để áp dụng công nghệ ICR của ReadSoft, cần

phải xây dựng một ứng dụng riêng cho mẫu phiếu bao gồm xác định đầu vào,

đầu ra và các tùy biến cho các chức năng xử lý để chuyển đầu vào thành đầu

ra theo yêu cầu. Trong đó, xác định đầu vào là quan trọng và tốn nhiều thời

gian nhất. Đấy chính là những mô tả, khai báo để hệ thống nhận ra một mẫu

phiếu, xác định các trƣờng cần nhận dạng và các thuộc tính đặc thù của

chúng. Nhiều tùy biến của trƣờng hoặc của Form tạo ra những ảnh hƣởng

không nhỏ đối với chất lƣợng nhận dạng và do vậy cần phải đƣợc chạy thử để

kiểm tra với các lựa chọn khác nhau.

Ứng dụng đƣợc xây dựng bằng cách sử dụng các công cụ trong phần

mềm ReadSoft FORMS 5.2. Đầu tiên, nhóm nghiên cứu đã thiết kế một ứng

dụng với một mẫu phiếu đƣợc in ra máy tính. Tờ phiếu in đƣợc photocopy

thành mấy chục bản và đƣợc cán bộ phòng CSDL tự điền thông tin bằng cách

chép lại số liệu từ phiếu điều tra chính thức. Mục đích của thử nghiệm đầu

Page 25: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

175

tiên này là tiếp tục với mẫu form đã định dạng cùng với chuyên gia trong

những ngày đào tạo, xác định chất lƣợng nhận dạng với các cách điền phiếu

với mức độ cẩn thận khác nhau, với các loại bút và cách viết khác nhau. Tuy

nhiên, thử nghiệm đầu tiên này có kết quả rất thấp vì rất nhiều tờ phiếu bị loại

do hệ thống không xác định đƣợc (tỷ lệ có thể lên tới 20%). Có thể rút ra kết

luận rằng, các tờ phiếu photocopy, và tƣơng tự là với các phiếu có chất lƣợng

in thấp thì không thể áp dụng công nghệ ICR đƣợc.

Mẫu phiếu thứ hai đƣợc thử là mẫu phiếu chính thức điều tra BĐDS

2006 của tỉnh Bắc Ninh (năm 2006 phiếu điều tra BĐDS của tỉnh Bắc

Ninh đƣợc thiết kế riêng và in riêng khác biệt so với các tỉnh còn lại). Ứng

dụng với mẫu phiếu này đã đƣợc xây dựng một cách hoàn chỉnh hơn, với

đầy đủ các thuộc tính, lựa chọn và đƣợc chạy thử với nhiều thay đổi lựa

chọn khác nhau. Với việc chạy thử đƣợc qua toàn bộ quy trình các địa bàn

điều tra tỉnh Bắc Ninh, có thể coi việc xây dựng ứng dụng ICR với điều tra

này đã hoàn thành.

Một ứng dụng đƣợc xây dựng với chỉ các công cụ của phần mềm

ReadSoft FORMS 5.2 là cũng đã có thể thực hiện việc xử lý phiếu điều tra.

Tuy nhiên trong phần lớn trƣờng hợp những ứng dụng nhƣ vậy bị hạn chế

rất nhiều.

Hạn chế rõ ràng nhất là trong việc kiểm tra số liệu nhận dạng đƣợc.

Những công cụ của ReadSoft FORMS 5.2 chỉ cho phép thiết lập những

kiểm tra đơn giản nhƣ loại trƣờng, loại chữ số, khoảng xác định, cộng

tổng,...Nhƣng việc kiểm tra tổng thiết lập bằng phần mềm cũng không áp

dụng đƣợc cho phần lớn những điều tra thống kê vì số liệu điều tra thƣờng

có những giá trị đặc biệt nhƣ không biết, không xác định. Đối với những

nƣớc điều tra viên có trình độ cao, tuân thủ nghiêm các quy định ghi phiếu

họ có thể thỏa mãn với những kiểm tra của phần mềm, và do vậy họ không

cần lập trình bằng các ngôn ngữ khác để bổ sung thêm các kiểm tra logic.

Ví dụ nhƣ trong tổng điều tra dân số của Lào không có các kiểm tra viết

thêm, nhiều nƣớc khác các kiểm tra lập trình bổ sung rất tối thiểu. Nếu còn

có những lỗi logic sót lại sau nhận dạng và kiểm tra, số liệu sẽ đƣợc làm

sạch bằng các chƣơng trình hiệu chỉnh tự động.

Đối với số liệu điều tra thống kê của Việt Nam, do các lỗi logic để lại

khá lớn, việc hiệu chỉnh tự động sẽ không đảm bảo chất lƣợng, có thể làm sai

lệch số liệu. Do vậy việc phải kiểm tra và sửa chữa trực tiếp là rất cần thiết.

Nếu chƣơng trình kiểm tra logic viết cho số liệu đầu ra của hệ thống ICR thì

sẽ là một chƣơng trình viết theo kiểu truyền thống của các chƣơng trình kiểm

tra logic lâu nay chúng ta vẫn viết và việc lập trình khá đơn giản. Tuy nhiên

Page 26: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

176

nếu làm nhƣ vậy, sẽ phát sinh thêm một công đoạn kiểm tra trực tiếp các tờ

phiếu (dạng hình ảnh), tốn kém thời gian, nhân công. Đó là lý do tại sao phải

viết các chƣơng trình kiểm tra logic nhúng đƣợc vào bên trong và chạy đồng

thời với các module của hệ thống ReadSoft FORMS. Các chƣơng trình viết

kiểu “nhúng” này làm cho trong quy trình xử lý chỉ có một công đoạn kiểm

tra, mỗi tờ phiếu đƣợc kiểm tra cùng lúc theo mọi khía cạnh: những trƣờng

không nhận dạng đƣợc, nhận dạng sai, sai các thuộc tính/các thiết lập đã xác

định bởi phần mềm FORMS cũng nhƣ những kiểm tra logic viết bằng các

ngôn ngữ lập trình bên ngoài.

Chƣơng trình kiểm tra logic số liệu điều tra BĐDS trong hệ thống ICR

FORMS đƣợc viết bằng Visual Basic. Chƣơng trình kiểm tra logic viết trong

hệ thống này đã đƣa vào tất cả những kiểm tra cần thiết tƣơng đƣơng với

những quy định kiểm tra đã viết trong chƣơng trình nhập tin và chƣơng trình

kiểm tra logic trong hệ thống nhập tin truyền thống. Ngoài ra, chƣơng trình

kiểm tra logic viết cho hệ thống ICR còn phải bổ sung thêm rất nhiều kiểm

tra để đảm bảo cấu trúc dữ liệu, các bƣớc nhảy có đúng hay không. Nguyên

nhân là do trong các phần mềm thiết kế chƣơng trình nhập tin những vấn đề

này hệ thống có những cơ chế đơn giản để đảm bảo những vấn đề này, còn

trong dữ liệu trong hệ thống ICR trƣớc khi chuyển đổi ra ngoài là những ô

điền dữ liệu rời rạc.

1.2. Thực hiện việc chạy thử nghiệm với phiếu điều tra BĐDS, nguồn lao

động và KHHGĐ 2006

Số phiếu điều tra BĐDS, nguồn lao động và KHHGĐ 2006 của tỉnh Bắc

Ninh thực sự đƣợc chạy hoàn chỉnh quy trình quét và nhận dạng, kiểm tra

không lớn, chỉ có 8 địa bàn. Tuy vậy trong quá trình thử nghiệm, phiếu đƣợc

thực hiện rất nhiều lần để thử nghiệm các phƣơng án lựa chọn, bổ sung dần

chƣơng trình kiểm tra cho đến lúc hoàn thiện.

Phiếu điều tra BĐDS, nguồn lao động và KHHGĐ 2006 đƣợc thiết kế khi

TCTK chƣa có phần mềm, chƣa có bất cứ kinh nghiệm nào nên chƣa thực sự

phù hợp. Các khâu in phiếu, chất lƣợng giấy, nhất là vấn đề điền phiếu của tỉnh

Bắc Ninh đều không đạt yêu cầu do vậy việc thực hiện đặc biệt khó khăn.

Trong công đoạn quét phiếu, việc chuẩn bị đƣa phiếu vào máy quét mất

thời gian do phải dở từng tờ phiếu ra và xếp lại (các tờ phiếu đều bị gấp đôi

do khi hƣớng dẫn cho điều tra viên TCTK chƣa có máy và cả chƣa thu xếp

đƣợc tiền mua máy scanner, phải tính đến khả năng dùng các máy scanner

thông thƣờng cỡ A4). Các phiếu để trong hộp cứng riêng từng địa bàn nên

các góc không bị quăn/rách nhƣng do phải dở ra vuốt lại nên việc dỗ thẳng

Page 27: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

177

đều tập phiếu cũng mất thời gian. Nhƣng khó khăn nhất là việc phiếu dễ bị

kẹt/bị rách do giấy mỏng, và có thể do phiếu để khá lâu nên bị ẩm. Các phiếu

bị rách phải gỡ ra chép lại và trong một số trƣờng hợp chỗ rách làm mất

thông tin không thể khôi phục lại đƣợc.

Một vấn đề thƣờng xuyên gặp phải khi quét phiếu năm 2006 là rất nhiều

tờ phiếu hệ thống không định dạng ra đƣợc (dựa trên các trƣờng điều chỉnh

xác định các góc phiếu, xác định đúng từ phiếu, trang nào của phiếu). Lý do

có thể là:

- Do các trƣờng điều chỉnh xác định góc làm khuôn mỗi trang

phiếu năm 2006 đƣợc thiết kế là đƣờng không liền nét và chất lƣợng in

không đƣợc tốt, hoặc/và;

- Phiếu bị ẩm, bề mặt cong/lồi lõm, hoặc nếp gấp đã lâu làm nhăn

giấy nên các trƣờng điều chỉnh định vị bị xô lệch đi.

Khi gặp một tờ phiếu không định dạng đƣợc phải lấy lại địa bàn đã quét,

đếm phiếu và quét lại tập phiếu bắt đầu từ phiếu định dạng hỏng trở đi.

Khâu trục trặc, tốn kém thời gian nhất là việc kiểm tra (VERIFY) phiếu

đã quét và nhận dạng. Chất lƣợng ghi phiếu năm 2006 của Bắc Ninh đặc biệt

kém (so với yêu cầu của công nghệ) nên tỷ lệ nhận dạng đƣợc và trong các

trƣờng hệ thống coi là đã nhận dạng đƣợc thì nhận dạng sai rất nhiều và phải

sửa lại trong quá trình kiểm tra. Ngoài thiếu sót do ghi chữ số không gọn

đúng trong ô quy định, viết số không đúng theo mẫu chuẩn, tẩy xóa sửa chữa

phiếu chƣa tốt, còn một nguyên nhân gây ra sai sót cho nhận dạng nữa là nét

viết bút chì rất mờ nhạt, ảnh chữ số khi quét vào hệ thống không đọc đƣợc

hoặc các đƣờng nét bị đứt đoạn. Rất nhiều tờ phiếu khi thực hiện kiểm tra đối

chiếu lại với ảnh không thể nhìn thấy nét viết nào, thậm chí khi lục tìm phiếu

giấy thì cũng đọc rất khó khăn, chỉ số gắng phỏng đoán các chữ số. Vì những

nguyên nhân trên, thời gian để ngƣời thực hiện kiểm tra số liệu cho một địa

bàn khoảng trên 100 tờ phiếu lên đến 1-2 ngày.

Tóm lại, việc thực hiện đầy đủ qui trình quét và nhận dạng phiếu điều

tra BĐDS, nguồn lao động và KHHGĐ 2006 của tỉnh Bắc Ninh tuy gặp rất

nhiều khó khăn, không thực hiện đƣợc với số lƣợng lớn nhƣng đã đạt đƣợc

kết quả kiểm tra đƣợc toàn bộ hệ thống, ứng dụng, chƣơng trình đã thiết

lập và xây dựng, xác định quy trình áp dụng công nghệ và rút ra những

kinh nghiệm quý báu cho việc tiếp tục mở rộng thử nghiệm cho điều tra

BĐDS 2007.

Dữ liệu của những địa bàn phiếu Bắc Ninh đã hoàn chỉnh khâu quét,

nhận dạng, kiểm tra đƣợc chuyển đối thành tệp dữ liệu dạng text sử dụng các

Page 28: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

178

công cụ chức năng của phần mềm ReadSoft FORMS. Tệp dữ liệu này đƣợc

chạy chƣơng trình so sánh với số liệu đã nhập tin in ra các khác biệt giữa hai

loại số liệu và sau đó đƣợc đem so sánh với phiếu gốc để xác định. Qua công

việc so sánh này, có thể khẳng định chất lƣợng số liệu của ICR tốt hơn nhiều

so với nhập tin từ bàn phím.

Do nhiều khó khăn xuất phát từ thiết kế phiếu, chất lƣợng giấy, in và

bảo quản phiếu, và nhất là từ khâu ghi phiếu nên việc quét và kiểm tra số liệu

nhận dạng bị kéo dài thời gian, tốn nhiều nhân lực hơn so với nhập tin bằng

bàn phím. Chính vì thế thử nghiệm này chƣa thể chứng minh đƣợc ƣu việt

của công nghệ mới nếu xét về thời gian và chi phí lao động. Để đạt đƣợc kết

quả tốt cho giải pháp này cần phải có thay đổi quan trọng trong tất cả các

khâu chuẩn bị điều tra và điều tra. Một kết quả quan trọng khác của thử

nghiệm với phiếu điều tra BĐDS 2006 là những kinh nghiệm quý báu rút ra

đƣợc để có những nhận thức, những thay đổi thích hợp với công nghệ ICR

trong mọi công đoạn trong điều tra. Trong thiết kế phiếu điều tra BĐDS

2007, nhiều thay đổi trong thiết kế cho phù hợp hơn với công nghệ nhận dạng

đã đƣợc áp dụng dựa trên những kinh nghiệm này.

2. Thử nghiệm công nghệ ICR trong xử lý Điều tra biến động Dân số và

KHHGĐ 1/4/2007, Điều tra Lao động Việc làm năm 2007

2.1. Thử nghiệm xử lý điều tra biến động dân số và KHHGĐ 1/4/2007

- Thử nghiệm với phiếu của tỉnh Bắc Giang (tỉnh đƣợc chọn áp dụng

công nghệ ICR). Quét đƣợc toàn bộ 60 địa bàn của Bắc Giang. Kết quả nhƣ

sau: Tốc độ quét nhanh, giấy ít bị kẹt; Số phiếu lỗi trong quá trình quét gần

nhƣ không có; Tỷ lệ nhận dạng khoảng 97%, số còn lại thì verify cũng tƣơng

đối nhanh.

- Trung tâm tiến hành thử nghiệm thêm 7 tỉnh khác không đƣợc tập huấn

cho việc áp dụng công nghệ Scaning, kết quả thử nghiệm nhƣ sau: Các tỉnh

này không viết bút chì mà viết bút bi cho nên nếu viết cẩn thận không tẩy xoá

thì việc nhận dạng và verify không tốn công sức nhiều vì ảnh rất rõ nét. Tuy

nhiên vì không tránh khỏi tẩy xoá nên số trƣờng không nhận dạng đƣợc do

bẩn khá nhiều, dẫn đến mất thời gian xoá số liệu thừa, giảm hiệu quả. Logic

các chỉ tiêu của phiếu không tốt nên mặc dù đã có chƣơng trình kiểm tra logic

trong quá trình verify nhƣng vì hạn chế của phần mềm cho các kiểm tra giữa

các tập phiếu nên lỗi còn sót lại sau quá trình transfer khá nhiều dẫn đến mất

rất nhiều công sửa số liệu

- Hệ thống đƣợc cài đặt với một máy chủ không đúng cấu hình mà đơn

thuần là một máy PC nên khi các máy verify (5 máy) cùng truy cập một lúc

Page 29: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

179

thì hệ thống treo, hiện tƣợng này xảy ra nhiều lần dẫn đến sự cố chƣơng trình

logic không đƣợc kích hoạt nên để lại sai logic rất nhiều.

- Quá trình cài đặt và config hệ thống của kỹ sƣ lập trình phòng CSDL vì

chƣa có kinh nghiệm nên đã để hiện tƣợng chiếm quá nhiều dung lƣợng đĩa

cứng của máy chủ dẫn đến một phần nguyên nhân hệ thống máy bị treo ngoài

nguyên nhân server không đảm bảo cấu hình (Về sau này khi xử lý điều tra

Lao động việc làm lƣu quá nhiều ảnh trong Database mới xảy ra hiện tƣợng

treo máy quá nhiều, hỏi chuyên gia công ty ReadSoft chúng tôi mới biết)

2.2. Thử nghiệm xử lý điều tra lao động việc làm năm 2007

Điều tra lao động việc làm năm 2007 là cuộc điều tra đầu tiên do Tổng

cục Thống kê thực hiện. Cuộc điều tra đƣợc tiến hành vào thời điểm 1/7/2007

và cũng là cuộc điều tra chọn mẫu đƣợc tiến hành ở 64 tỉnh/thành phố.

Sau khi nghiên cứu nội dung điều tra, phạm vi điều tra, Trung tâm Tin

học thống kê thấy rằng đây là cơ hội thử nghiệm trên phạm vi rộng và để tất

cả các Cục Thống kê thử nghiệm các quy trình trong khâu điều tra (tập huấn

cho điều tra viên, cách ghi thông tin trên phiếu, bảo quản phiếu…)

Tuy nhiên để tránh rủi ro về thời gian xử lý, Trung tâm đã áp dụng cả 2

phƣơng án: Phƣơng án nhập tin bằng bàn phím và phƣơng án dùng máy quét.

Từ tháng 10/2007 các Cục Thống kê đã gửi phiếu điều tra về Trung tâm Tin

học chủ yếu qua đƣờng Bƣu điện. Trung tâm Tin học đã thực hiện các bƣớc

của quy trình xử lý và kết quả nhƣ sau:

Tỉnh đầu tiên có phiếu đƣợc tiến hành quét là Ninh Bình. Phiếu của

Ninh Bình đƣợc viết bằng bút chì thƣờng, không phải là chì kim nên phiếu

quá mờ, không nhận dạng đƣợc, verify quá tốn công sức. Về sau chúng tôi đã

phải chuyển các địa bàn đã cắt và quét rồi nhƣng quá mờ xuống nhập tin. Sau

đó chúng tôi có thông báo cho vụ Dân số biết để nhắc nhở các tỉnh viết mờ

phải xem xét lại trƣớc khi gửi phiếu. Rút kinh nghiệm Ninh Bình, các tỉnh

sau chúng tôi đã phân loại xem địa bàn nào viết rõ ràng và khả thi để làm

quét chúng tôi mới đƣa vào qui trình quét, còn không để nhập tin ngay từ

đầu. Nhờ có sự phân loại này mà công việc cũng hiệu quả hơn, verify nhanh

hơn nhiều

Tuy nhiên khi làm điều tra LDVL với qui mô lớn (64 tỉnh) đã có nhiều

vấn đề khó khăn trục trặc xảy ra:

- Máy PC làm Server không đảm bảo cấu hình nên hệ thống chậm

Page 30: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

180

- Kỹ sƣ lập trình chƣa có nhiều kinh nghiệm nên config hệ thống và

chọn thuộc tính của Database chiếm quá nhiều dung lƣợng, không tự thu gọn

mà càng ngày càng phình ra, dẫn đến sự cố treo máy

- Đƣợc sự trợ giúp của dự án của UNFPA nên đã có Server thay, tuy

nhiên việc thay đổi hệ thống trong quá trình đang vận hành cũng gây nên

những khó khăn không nhỏ, công việc bị đình trệ đến hàng tuần. Tiếp theo

server lại phải đi bảo hành nhiều lần nên cũng phải đổi và config lại hệ thống

mất quá nhiều thời gian.

- Máy quét hỏng chƣa rõ nguyên nhân, chập chờn lúc đƣợc lúc không,

mặc dù đã mời chuyên gia của MITEC sang rất nhiều lần nhƣng do bản thân

họ cũng chƣa có kinh nghiệm xử lý nên rất mất thời gian và cho đến nay chƣa

tìm đƣợc nguyên nhân dẫn đến chậm tiến độ rất nhiều

- Qua vấn đề máy quét hỏng chúng tôi cũng nhận thấy vấn đề đặt ra là

để áp dụng cho Tổng điều tra dân số 2009 thì việc bảo hành bảo trì máy quét

là vô cùng quan trọng.

- Việc lập trình nhúng kiểm tra vào module verify còn khá nhiều hạn

chế nên khi verify đã gặp phải các lỗi nhƣ: Việc quay đi quay lại giữa các

trƣờng ảnh hƣởng đến việc lấy các biến giá trị để kiểm tra nên khi ngƣời

verify thực hiện thao tác quay giữa các form thì đã bỏ sót các kiểm tra hoặc

không thể nào đi qua đƣợc tập phiếu vì vi phạm logic (do lấy biến sai). Vấn

đề này TTTHTK sẽ nghiên cứu và cố gắng cải tiến trong đợt điều tra thử

nghiệm sau.

3. Thử nghiệm công nghệ ICR trong xử lý điều tra thử nghiệm lần 3

Tổng Điều tra Dân số và nhà ở

Điều tra thử lần ba của Tổng điều tra Dân số và Nhà ở (TĐT DSNƠ)

đƣợc tiến hành tại 4 tỉnh với tổng số phiếu điều tra đƣợc là 744 phiếu ngắn

(phiếu là 1 tờ A3 hai mặt) và 713 tập phiếu dài (mỗi phiếu gồm 6 tờ 12 trang

A4). Trung tâm Tin học Thống kê đã xử lý điều tra này bằng công nghệ quét

và nhận dạng ký tự thông minh (ICR). Việc xử lý phiếu này nhằm mục đích

đánh giá việc thiết kế phiếu, ghi phiếu, loại bút chì (chì thƣờng hay chì kim),

chƣơng trình xử lý bằng ICR và đánh giá từng công đoạn trong xử lý.

3.1. Thiết kế, xây dựng chương trình

Trong các đợt thử nghiệm xử lý phiếu bằng công nghệ ICR trong năm

2007 thực hiện với các xử lý thật mà kết quả đƣợc sử dụng chính thức và số

lƣợng phiếu cần xử lý lớn nên hệ thống chƣơng trình đƣợc viết theo nguyên

tắc: hầu hết tất cả mọi kiểm tra sửa chữa số liệu trực tiếp, đều tích hợp chung

Page 31: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

181

trong 1 lần chạy. Nghĩa là ngƣời xác thực, kiểm tra số liệu thực hiện đồng

thời mọi công việc: nhập vào những dữ liệu hệ thống không nhận dạng đƣợc,

kiểm tra những dữ liệu hệ thống nhận dạng đƣợc nhƣng chƣa chắc chắn, xác

thực những dữ liệu bằng phƣơng pháp kiểm tra theo đống (mass verify), kiểm

tra và sửa các lỗi logic. Đây là cách thức phải làm đối với những xử lý thật sự

có khối lƣợng xử lý lớn bởi chỉ có nhƣ vậy mới đảm bảo tối ƣu chi phí nhân

công, thời gian xử lý. Tuy nhiên, cách làm này không thể có đƣợc thống kê

chính xác về số lỗi chia theo các loại: lỗi do hệ thống nhận dạng sai, lỗi do

ngƣời kiểm tra gây ra, lỗi do khâu điều tra ghi phiếu.

Trong đợt thử nghiệm này TTTHTK đã thực hiện theo phƣơng án

chƣơng trình ứng dụng ICR đƣợc xây dựng chỉ với những công cụ của phần

mềm ReadSoft, nghĩa là về mặt kiểm tra chỉ có những kiểm tra đơn giản nhƣ

kiểm tra khoảng xác định cho mỗi trƣờng (Range check), trƣờng bắt buộc

phải có số liệu hay không, nếu là trƣờng đánh dấu thì chỉ đƣợc đánh dấu 1

hay nhiều ô và một vài kiểm tra đơn giản khác. Việc xử lý đƣợc thực hiện 3

lần (riêng số lần quét phiếu có thể thực hiện nhiều lần hơn), mỗi lần tích hợp

các cách kiểm tra khác nhau và kết quả đầu ra đem so sánh từng phiếu, từng

trƣờng với nhau để xác định tỷ lệ nhận dạng, số lỗi các loại. Bên trong hệ

thống ICR, những ngƣời thực hiện hầu nhƣ để nguyên số liệu đã ghi trên

phiếu, chỉ sửa những trƣờng hợp ghi không rõ, ghi lệch ô. Tệp dữ liệu cuối

cùng đƣợc chạy qua một chƣơng trình kiểm tra in các lỗi logic để xác định

các kiểu sai sót do điều tra ghi phiếu. Với phƣơng án, trên các chƣơng trình

đƣợc viết hoàn toàn khác với những chƣơng trình đã viết cho các điều tra đã

xử lý bằng ICR trong năm 2007. Những khác biệt chủ yếu là chƣơng trình

viết trong hệ thống phần mềm ICR đơn giản hơn rất nhiều do không cần viết

các chƣơng trình “nhúng” vào để kiểm tra số liệu; Tạo lập nhiều ứng dụng

ICR khác nhau thay đổi các thuộc tính, các lựa chọn, tích hợp các công việc

khác nhau cho mỗi lần chạy; Viết thêm nhiều chƣơng trình kiểm tra bên

ngoài để so sánh số liệu, kiểm tra logic in lỗi.

Kinh nghiệm rút ra khi xây dựng ứng dụng là: Để đạt hiệu quả tốc độ

quét cao, giấy đỡ bị kẹt, các trang phiếu đỡ bị loại không nhận dạng đƣợc cần

cân nhắc khi thực hiện định dạng phiếu trong phần mềm ICR. Khi định dạng,

cần xem xét cẩn thận xem nên đặt giấy chiều đứng hay xoay ngang, mặt và

chiều giấy đặt vào là thuận tiện nhất cho ngƣời vận hành máy quét. Bởi vì

định dạng phiếu theo chiều nào thì khi quét đặt phiếu theo đúng chiều đó sẽ

đạt tốc độ quét cao hơn. Giấy đặt chiều ngang cho tốc độ quét cao hơn. Phía

lề phiếu đặt vào phía trong của máy quét không phải là phía phiếu bị cắt thì ít

gặp trƣờng hợp phiếu không nhận dạng đƣợc hơn.

Page 32: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

182

3.2. Thực hiện xử lý

+) Tiếp nhận và chuẩn bị phiếu

Điều đáng nói nhất là việc sắp xếp phiếu không đúng yêu cầu cho xử lý

bằng ICR. Mặc dù trong cả 2 điều tra năm 2007 (điều tra BĐDS và LĐVL),

TTTH đã đƣa ra và nhắc nhở rất nhiều về yêu cầu sắp xếp phiếu là không

đƣợc gấp đôi từng tờ phiếu, không lồng/kẹp các phiếu/tập phiếu vào nhau

(của các hộ có nhiều tờ/tập phiếu). Tuy nhiên lần nay, cũng giống nhƣ với

tình trạng xảy ra trong năm 2007, tất cả các phiếu khổ A3 đều gập đôi từng từ

phiếu, phiếu khổ A4 thì lồng/kẹp vào nhau. Vấn đề này cần phải đƣợc giải

quyết trong TĐTDS 2009, bởi với khối lƣợng phiếu lớn việc phải mở ra từng

tờ phiếu, vuốt và ép phẳng lại nếp gấp sẽ rất tốn kém nhân công và làm chậm

lại toàn bộ quá trình xử lý.

+) Cắt phiếu

Việc cắt phiếu phải thực hiện đối với loại phiếu dài (điều tra mẫu) để

làm cho tập phiếu rời ra từng tờ. Nhƣ đã nói ở trên, đối với phiếu điều tra thử

lần 3 này, việc cắt phiếu gặp rất nhiều khó khăn. Do lần này phiếu thiết kế

theo phƣơng thẳng đứng chứ không xoay ngang nhƣ phiếu điều tra LĐVL

2007, phía lề phải cắt là chiều dài của phiếu nên chiều dài dao cắt chỉ có thể

cắt 1 tập phiếu mỗi lần chứ không thể cắt cùng lúc cắt 2 tập phiếu nhƣ điều

tra LĐVL. Lề phiếu lại quá nhỏ, chỉ cần khi dao cắt đẩy xô lệch các tập phiếu

chút ít là đã bị cắt lẹm vào các ô thông tin. Chính vì thế, ngƣời vận hành máy

cắt phải chia nhỏ lô phiếu (địa bàn), mỗi lần cắt chỉ đặt vào từ 12 đến 15 tập

phiếu. Thêm nữa máy cắt trong năm 2007 đã có lần gặp sự cố (dao cắt tự rơi

xuống khi không bấm nút điện) nên để tránh xảy ra tai nạn lao động một cách

đáng tiếc, phải sử dụng 2 lao động cho 1 máy cắt, một ngƣời đứng trƣớc máy

điều khiển, một ngƣời đứng phía sau đặt giấy và lấy giấy ra để tránh việc đƣa

tay qua phía dƣới dao cắt. Chính vì thế việc cắt phiếu đã chậm mà lại tốn

thêm nhân công.

Để cắt 704 tập phiếu 6 tờ 12 trang (phiếu dài) với 2 ngƣời phục vụ đã

mất 111 phút. Tính trung bình mỗi tập phiếu mất 0,1577 phút. Việc cắt phiếu

ảnh hƣởng nhất định đến tốc độ quét phiếu và chất lƣợng nhận dạng tờ phiếu.

Khi cắt phiếu quá chéo góc thì khi quét vào máy các tờ phiếu dễ bị không

nhận dạng đƣợc. Mặc dù các tờ phiếu khi cắt có thể bị xén nhiều ít miễn là

còn cách một khoảng nhỏ đến trƣờng định vị hoặc trƣờng thông tin nhƣng

trên thực tế nếu cùng một địa bàn (một lô phiếu) mà có độ rộng hẹp chênh

lệnh đáng kể (do các lần cắt khác nhau) thì khi quét hay bị kẹt giấy.

+) Quét phiếu (Scan)

Page 33: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

183

Sau một vài lần thử số lƣợng phiếu đơn lẻ hoặc một vài địa bàn, hai lần

quét chính thức sau đây đƣợc thống kê thời gian. Quy trình quét cũng thay

đổi. Trong các thử nghiệm năm 2007, mỗi khi bị kẹt giấy hoặc tờ phiếu

không nhận dạng đƣợc do những lý do khác nhau, ngƣời thực hiện quét phiếu

đều dừng lại, xác định tờ phiếu hỏng, tìm tờ hỏng trong tập phiếu và quét tiếp

lại vào cùng lô (batch) địa bàn. Cách làm này dễ dàng hơn cho việc quản lý,

nhất là khi quản lý còn thủ công nhƣng không đảm bảo công suất tối đa cho

máy quét. Quy trình quét lần này theo nguyên tắc, ngƣời quét phiếu liên tục

quét phiếu không để máy quét dừng lại lâu, khi có lỗi vẫn chuyển sang tập

khác, một ngƣời khác sẽ tìm kiếm, xác định những tờ phiếu gặp trục trặc, tập

hợp lại để xử lý sau.

Một số thông số chính thiết lập cho module quét lần thử nghiệm này là:

Contract: 60, Light: 25, DPI: 300. Đối với phiếu ngắn khổ A3, mỗi phiếu là 1

tờ A3 hai mặt, tốc độ quét trung bình 1 phiếu là 1,1145 giây. Đối với phiếu

dài khổ A4, mỗi phiếu là 6 tờ 12 trang A4, tốc độ quét trung bình mỗi tờ là

1,48008 giây.

Nhận xét chung:

- Công việc quét phiếu lần này đạt đƣợc tốc độ quét phiếu cao hơn

những lần trƣớc và máy cũng không bị hỏng trong quá trình làm việc. Tuy

nhiên cũng phát sinh một số trục trặc: phiếu bị cắt lệch, máy cuốn nhiều tờ

cùng lúc làm kẹt giấy nhiều hơn và nhất là việc ảnh các trang phiếu bị lệch

chƣa xác định đƣợc chính xác nguyên nhân.

- Việc quét phiếu đóng thành tập khổ A4 khó khăn hơn rất nhiều so với

phiếu đơn rời từng tờ khổ A3. Các khó khăn đều xuất phát từ loại phiếu này:

máy cuốn nhiều tờ, kẹt giấy nhiều, mỗi khi bị kẹt giấy hoặc 1 phiếu không

nhận dạng đƣợc việc xử lý cũng tốn nhiều thời gian do việc phải liên kết các

tờ phiếu với nhau, khi hỏng 1 tờ phải xóa và làm lại cả tập, v.v...

- Mặc dù đặt giấy theo các chiều khác nhau hệ thống đều có thể xoay

phiếu về đúng vị trí nhƣng ngƣời vận hành máy quét cần đặt giấy theo đúng

chiều phiếu đã định dạng để đạt đƣợc tốc độ quét phiếu cao nhất.

- Khi đặt giấy vào khay của máy quét, phiếu càng đƣợc dỗ thẳng thì đỡ

xảy ra trƣờng hợp tờ phiếu không nhận dạng đƣợc.

- Tốc độ quét phụ thuộc vào nhiều yếu tố nhƣ: tốc độ tối đa của máy

quét, máy chủ, máy PC thực hiện công việc quét, kết nối giữa các máy, tốc

độ truy cấp CSDL, phần mềm quét phiếu và số lƣợng ô cần cắt thành từng

ảnh trên mỗi trang phiếu. Khi tính toán lập kế hoạch cho TĐTDS 2009 cần so

sánh phiếu thiết kế cuối cùng với các mẫu phiếu đã làm thử đồng thời đánh

Page 34: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

184

giá ảnh hƣởng của đƣờng truyền và tốc độ truy cập CSDL khi có nhiều máy,

nhiều module khác nhau chạy đồng thời.

+) Nhận dạng (Interpret)

Công việc nhận dạng đƣợc thực hiện 3 lần, lần thứ nhất và hai đều thực

hiện với các ảnh của lần quét thứ nhất, lần thứ ba thực hiện với lần quét thứ

hai. Riêng với phiếu A4 còn có thêm một lần thực hiện nhận dạng cho 4 địa

bàn làm lại do lần thực hiện đầu tiên có quá nhiều tập phiếu không nhận dạng

đƣợc. Tốc độ thực hiện nhận dạng trung bình của 3 lần với phiếu ngắn (A3)

là 36,43 tờ/phút và với phiếu dài (A4) là 90,15 tờ/phút.

Một số thông số đã lựa chọn khi định nghĩa các mẫu phiếu ảnh hƣởng

đến kết quả nhận dạng nhƣ sau:

- Security: 5 (ở mức độ cân bằng giữa Security và Interpret). Với mức

độ an toàn của nhận dạng này thì sẽ bớt đi số lƣợng trƣờng không nhận dạng

đƣợc (nghĩa là phần lớn các trƣờng đều đã đƣợc gán giá trị nhận dạng),

nhƣng do thuộc tính xác thực theo đống/lô (Mass Verify) đƣợc chọn là kiểm

tra lại 100% các trƣờng ngay cả khi phần mềm đã coi là nhận dạng chắc chắn

nên vẫn đảm bảo độ an toàn chính xác cao nhất cho số liệu.

- Việc loại bỏ các vết bẩn (bôi quá bẩn) hoặc loại bỏ những vết mờ khi

điều tra viên tẩy xóa không hết thông tin với việc áp dụng thuộc tính Detect

Strikeout (phát hiện những trƣờng đã xóa) và Detect Noise (phát hiện các tạp

chất/vết bẩn) đƣợc thiết lập nhƣ sau: Với loại phiếu A3 viết bút chì thƣờng:

Detect Strikeout: 90%; Detect Noise 20%.

Với phiếu A4 viết bằng bút chì kim mờ hơn những thiết lập trên có thể

làm mất những thông tin ghi quá mờ nên không áp dụng, nghĩa là mọi dấu

vết gì phát hiện trong các ô phiếu đều đƣợc nhận dạng và đƣa ra cho ngƣời

kiểm tra xem xét.

- Tỷ lệ nhận dạng đƣợc tính trên tỷ lệ giữa những ô mà phần mềm nhận

dạng xác định chắc chắn dữ liệu đã số hóa (cả ô đánh dấu và ô ký tự) trên

tổng số ô có ghi thông tin cần phải nhận dạng. Những trƣờng phần mềm

không nhận dạng đƣợc hoặc đã nhận dạng nhƣng không chắc chắn là những

trƣờng mà ngƣời kiểm tra xác thực số liệu sẽ phải kiểm tra và nhập thông tin

vào. Tỷ lệ nhận dạng trung bình đƣợc đối với phiếu ngắn (A3) là 99,44 %,

phiếu dài (A4) là 99,52%.

Nhận xét về việc ghi phiếu: các phiếu của điều tra này có màu chì tƣơng

đối đậm, lên ảnh rõ, thuận lợi cho việc nhận dạng và cho ngƣời kiểm tra xác

thực dữ liệu, viết đúng vào các ô. Tuy nhiên chữ viết của nhiều phiếu vẫn còn

Page 35: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

185

cẩu thả, việc tẩy các thông tin sai chƣa đƣợc cẩn thận, vẫn còn rất nhiều các

nét chì mờ và các nét chì còn lại này trở thành các ký tự không nhận dạng

đƣợc mà ngƣời kiểm tra số liệu sau này phải thực hiện thao tác xóa dữ liệu.

Trong điều tra thử nghiệm này, loại bút chì sử dụng phân biệt cho 2 loại

phiếu: bút chì thƣờng đƣợc sử dụng cho loại phiếu ngắn, bút chì kim sử dụng

cho loại phiếu dài. Từ tỷ lệ nhận dạng ta nhận thấy hầu nhƣ không có sự khác

biệt đáng kể về tỷ lệ nhận dạng giữa 2 loại phiếu dài và phiếu ngắn, hay nói

một cách khác, việc sử dụng bút chì kim hay bút chì thƣờng vỏ gỗ hầu nhƣ

không ảnh hƣởng đến tỷ lệ nhận dạng. Việc lựa chọn loại bút chì nào cần xác

định từ chính những ngƣời sử dụng: các điều tra viên và những ngƣời thực

hiện ký mã phiếu điều tra.

+) Xác thực và kiểm tra số liệu (Verify)

Đây là bƣớc kiểm tra, xác thực dữ liệu sau khi nhận dạng sử dụng lao

động thủ công. Đối với điều tra thử lần này không kết hợp các kiểm tra logic

phức tạp trong chức năng kiểm tra (Verify). Toàn bộ số liệu đƣợc tiến hành 2

lần kiểm tra, xác thực dữ liệu theo 2 cách khác nhau: lần thứ nhất bao gồm cả

kiểm tra theo lô ký tự (Mass Verify), lần thứ hai bỏ chức năng Mass Verify

trong kiểm tra. Do điều tra này có số lƣợng phiếu nhỏ, mỗi đợt tiến hành

Verify, mỗi ngƣời chỉ thực hiện một vài địa bàn nên tốc độ làm việc không

thể cao đƣợc. Thêm nữa đối với điều tra thật thì việc thực hiện Verify phải

thực hiện đồng thời tất cả các loại kiểm tra, bao gồm cả Mass Verify và kiểm

tra logic phiếu. Vì thế thống kê về tốc độ dƣới đây chỉ mang tính tham khảo:

Tốc độ Verify trung bình là 7,87 phiếu/phút (có cả mass verify) và 16,15

phiếu/phút (không có mass verify) đối với phiếu ngắn (A3); và là 1,58

phiếu/phút (có cả mass verify) và 5,09 phiếu/phút (không có mass verify) đối

với phiếu dài (A4).

Từ những thống kê trên đây ta có thể thấy, tỷ lệ nhận dạng đƣợc với

phiếu ĐT này khá cao từ 99,4 đến 99,5% . Hệ thống nhận dạng tính chung sai

gần 5 phần nghìn, số lỗi này có thể và phải đƣợc phát hiện và sửa chữa bởi

ngƣời kiểm tra xác thực dữ liệu với chức năng Mass Verify. Ngƣời thực hiện

kiểm tra xác thực dữ liệu còn để lại khoảng gần 0,3 phần nghìn ký tự sai.

Đƣơng nhiên những lỗi của hệ thống nhận dạng hay của ngƣời kiểm tra xác

thực dữ liệu có phần nguyên nhân từ việc ghi phiếu.

+) Chuyển đổi số liệu (Transfer)

Trong các thử nghiệm năm 2007, tốc độ chuyển đổi dữ liệu của các

phiếu điều tra chỉ gồm 1 tờ phiếu (điều tra BĐDS & KHHGĐ) có tốc độ khá

cao, nhƣng tốc độ thực hiện với phiếu điều tra là một tập nhiều tờ (điều tra

Page 36: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

186

LĐVL) rất chậm. Tuy nhiên với việc nghiên cứu thay đổi cách thức cũng nhƣ

chƣơng trình chuyển đổi, tốc độ chuyển đổi số liệu đã tăng lên nhiều lần. Đối

với phiếu ngắn (A3) tốc độ chuyển đổi trung bình là 398,48 phiếu/phút; phiếu

dài (A4) tốc độ chuyển đổi trung bình là 95,36 phiếu/phút. Tốc độ này khá

cao một phần cũng do module Transfer đƣợc chạy ngay trên máy chủ.

+) Kiểm tra số liệu sau khi chuyển đổi

Các chƣơng trình kiểm tra logic đƣợc xây dựng và sử dụng để kiểm tra

phát hiện các lỗi sai logic, in ra biên bản kiểm tra và đem đối chiếu với phiếu

gốc. Tuy nhiên do trƣớc đó phiếu đã đƣợc chạy qua hệ thống nhận dạng

nhiều lần, so sánh với nhau và phát hiện các lỗi do hệ thống nhận dạng sai

hoặc do thiếu sót của ngƣời thực hiện kiểm tra xác thực dữ liệu nên các lỗi in

ra của các chƣơng trình này đều là lỗi ghi phiếu.

4. Những bài học kinh nghiệm từ thử nghiệm

4.1. Tổng kết chung về 4 đợt thử nghiệm công nghệ ICR trong năm 2007,

2008

Bốn đợt thử nghiệm công nghệ ICR trong năm 2007, 2008 đánh dấu

những bƣớc tiến bộ rất rõ rệt. Những đợt thử nghiệm sau với những kinh

nghiệm tích lũy đƣợc của đợt trƣớc luôn cho kết quả tốt hơn.

Đợt thử nghiệm đầu tiên với phiếu điều tra BĐDS 2006 của tỉnh Bắc

Ninh, việc thiết kế phiếu và điều tra thực hiện khi chƣa mua thiết bị, phần

mềm và chỉ đến đầu năm 2007 việc xử lý thử mới bắt đầu triển khai. Lần thử

nghiệm này có thể coi nhƣ chạy thử hệ thống, nghiên cứu công nghệ và lập

trình trong hệ thống, bƣớc đầu xác định quy trình xử lý. Đợt thử nghiệm này

có thể coi có kết quả là chứng minh đƣợc hệ thống đã đƣợc vận hành tốt, còn

việc xử lý phiếu thực sự không thành công. Phiếu không nhận dạng đƣợc cả

tờ phiếu hoặc từng trƣờng cụ thể có nhiều nguyên nhân: thiết kế phiếu, chất

lƣợng giấy và bảo quản phiếu, chất lƣợng in ấn, chất lƣợng ghi phiếu và cả

nguyên nhân lập trình chƣa có kinh nghiệm.

Đợt thử nghiệm thứ hai với phiếu điều tra BĐDS 2007 đã xử lý trọn vẹn

8 tỉnh: Bắc Giang, Bắc Ninh, Hải Phòng, Lào Cai, Tuyên Quang, Lai Châu,

Nam Định, Hà Nội. Với tỉnh Bắc Giang là tỉnh đã có dự kiến và chuẩn bị

trƣớc cho công nghệ, việc xử lý bằng công nghệ nhận dạng ICR đạt kết quả

khả quan. Bảy tỉnh còn lại kết quả thấp hơn và rất khác nhau giữa các tỉnh,

các tỉnh Hải Phòng, Hà Nội, Bắc Ninh chất lƣợng phiếu rất kém đối với yêu

cầu nhận dạng. Thời gian để kiểm tra xác thực dữ liệu cho 1 địa bàn dao động

rất lớn tùy theo chất lƣợng ghi phiếu: từ 25 phút đến 3-4 giờ cho 1 địa bàn

(khoảng 100-130 tờ phiếu A3), cá biệt có địa bàn lên tới 8-9 giờ. Tính bình

Page 37: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

187

quân năng suất kiểm tra xác thực dữ liệu vẫn kém hơn so với nhập tin bàn

phím 15-20%.

Đợt thử nghiệm thứ ba thực hiện với phiếu điều tra Lao động việc làm

có kết quả tích cực hơn nữa. Dự kiến ban đầu là tất cả 64 tỉnh đều đƣợc xử lý

thử với công nghệ ICR: chọn những địa bàn viết rõ hơn để áp dụng công

nghệ mới nhằm có kiến nghị rõ ràng với từng tỉnh về chất lƣợng phiếu của họ

có đáp ứng yêu cầu của công nghệ hay không. Tuy nhiên, do số lƣợng bản

quyền cho việc kiểm tra xác thực dữ liệu hạn chế, nhất là chỉ có 1 máy quét

mà trong thời gian này máy có rất nhiều sự cố, không ổn định, thời gian xử lý

điều tra ngắn nên chỉ có 21 tỉnh đƣợc xử lý với công nghệ ICR (toàn bộ hoặc

một phần). Thời gian kiểm tra xác thực dữ liệu cho 1 địa bàn (180 đến trên

200 tờ A4) khoảng 15 đến 30 phút, nhanh hơn nhập tin bàn phím. Với đợt thử

nghiệm thứ ba này cho thấy khả năng rõ nét hơn việc giảm thời gian xử lý khi

áp dụng công nghệ nhận dạng ICR.

Đợt thử nghiệm thứ 4 thực hiện với phiếu điều tra thử nghiệm lần 3

của Tổng điều tra dân số và nhà ở. Số lƣợng phiếu điều tra thử nghiệm không

nhiều. Số phiếu điều tra đƣợc xử lý là 744 phiếu ngắn (phiếu là 1 tờ A3 hai

mặt) và 713 tập phiếu dài (mỗi phiếu gồm 6 tờ 12 trang A4). Do là điều tra

thử nghiệm nên các phiếu điều tra này rất giống với phiếu của TĐT DS

1/4/2009. Do vậy, những kinh nghiệm qua đợt thử nghiệm này sẽ rất có ích

cho xử lý TĐT DS 1/4/2009. Trong đợt thử nghiệm này, Trung tâm Tin học

Thống kê đã xử lý điều tra thử nghiệm lần 3 của TĐT DS 3 lần với những

thống kê chi tiết nhằm mục đích đánh giá việc thiết kế phiếu, ghi phiếu, loại

bút, chƣơng trình xử lý và đánh giá từng công đoạn trong xử lý.

4.2. Đánh giá công nghệ và khả năng áp dụng trong xử lý điều tra

Với những tiến bộ nhanh chóng của công nghệ trong những năm gần

đây, các phần mềm đƣợc cải tiến nâng cấp tốt lên với giá cả thích hợp, thiết

bị máy móc nhƣ máy quét, máy tính có giá giảm đáng kể làm cho việc áp

dụng công nghệ ICR trở nên khả thi hơn.

Sau khi nghiên cứu giải pháp công nghệ và phần mềm, với những kết

quả của thử nghiệm công nghệ ICR trong thời gian qua, có thể khẳng định

rằng việc xử lý phiếu tự động là có thể áp dụng đƣợc cho các điều tra thống

kê. Ngay cả các điều tra kinh tế cũng có khả năng áp dụng công nghệ này.

Tuy nhiên, việc áp dụng công nghệ ICR trong xử lý phiếu tự động đạt

hiệu quả mong muốn chỉ khi hàng loại yêu cầu đặt ra cho các khâu chuẩn bị

điều tra và điều tra đƣợc thực hiện nghiêm túc. Một số yêu cầu là đặc biệt

chặt chẽ, nghiêm ngặt, quyết định thành công hay thất bại của cuộc điều tra.

Page 38: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

188

Những yêu cầu này đòi hỏi thay đổi quan trọng trong tƣ duy, cách thức thực

hiện công việc của tất cả các khâu, các công việc liên quan đến điều tra.

Nếu so sánh với phƣơng pháp nhập tin bằng bàn phím, công nghệ ICR

có những ƣu điểm sau đây:

a) Chất lượng dữ liệu nhập vào đảm bảo hơn rất nhiều.

Trƣớc hết khả năng nhập trùng hay bỏ sót là hầu nhƣ không thể xảy ra.

Xét trên góc độ quản lý của cả tập phiếu (một địa bàn) thì trong nhập tin bàn

phím, mỗi lô phiếu qua tay rất nhiều ngƣời: ngƣời nhập tin lần một, ngƣời

nhập tin lần hai (thông thƣờng trong các tổng điều tra thƣờng có một tỷ lệ

nhất định đƣợc nhập lần hai để giám sát chất lƣợng), ngƣời rút phiếu kiểm tra

logic (có thể thêm cả ngƣời sửa phiếu), ngƣời sửa lại số liệu. Số lƣợng ngƣời

tham gia vào các công việc này lại rất đông, nên dễ xảy ra nhầm lẫn lấy sai

tập phiếu, để tập phiếu sai chỗ từ vị trí chƣa nhập sang vị trí khác,... Trong

khi đó trong giải pháp ICR, phiếu chỉ đƣa vào máy scanner quét xong là có

thể coi nhƣ hết liên quan đến tập phiếu.

Xét trên góc độ từng tờ phiếu, trong trƣờng hợp nhập tin bằng bàn phím,

ngƣời nhập có thể bỏ sót, nhập trùng, nhƣng khi quét phiếu trên máy, máy

không thể bỏ sót tờ nào, còn khi kéo đúp 2 tờ thì hoặc xảy ra kẹt giấy hoặc tờ

phiếu không nhận dạng đƣợc và ngƣời điều khiển không thể bỏ qua không xử

lý. Tƣơng tự xét trên góc độ từng dòng/cột số liệu (một nhân khẩu), ngƣời

nhập có thể nhập trùng hoặc bỏ sót dòng/cột nhƣng hệ thống nhận dạng tự

động thì không thể xảy ra lỗi này.

Các lỗi sai ngẫu nhiên nhƣ khi nhập tin cũng bị loại trừ tối đa do mọi dữ

liệu ghi trên phiếu đã đƣợc hệ thống nhận dạng và mọi dữ liệu đều đƣợc kiểm

tra lại bằng chức năng kiểm tra theo từng loại ký tự (mass verify). Trong

nhập tin khi phiếu ghi có lỗi hoặc do nhập tin sai có thể làm sai lệch các bƣớc

nhảy dẫn đến có những số liệu bị bỏ qua không nhập vào. Trong hệ thống

ICR thì dữ liệu đã ghi/đánh dấu bất kỳ trên phiếu đều không thể bị bỏ qua,

trừ khi ngƣời nhập tin xóa từng ô số liệu khi quyết định rằng ngƣời ghi phiếu

đã điền thừa số liệu.

Cũng do các phiếu đƣợc lƣu giữ toàn bộ dƣới dạng các ảnh nên trong

những trƣờng hợp cần thiết có khả năng tìm kiếm, xem xét tra cứu lại từng

phiếu cụ thể. Ví dụ nếu nghi ngờ việc đánh ký mã có sai sót từ nhận thức/do

hƣớng dẫn tại địa phƣơng nào đó, có thể tra xét, kiểm tra lại các phiếu trong

khi nếu nhập tin từ bàn phím thì khả năng này là cực kỳ khó khăn.

b) Rút ngắn thời gian xử lý, giảm chi phí nhân công nhập tin nếu các điều

kiện về chất lượng phiếu được đảm bảo.

Page 39: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

189

Việc có thể rút ngắn thời gian xử lý, giảm chi phí nhân công nhập tin

đƣợc hay không phụ thuộc hoàn toàn vào chất lƣợng phiếu, mà yếu tố quan

trong nhất là việc ghi phiếu.

c) Có thể giảm bớt chi phí kho/mặt bằng chứa phiếu, kệ/giá chứa phiếu và

cả nhân lực quản lý bảo quản phiếu

Các tập phiếu sau khi quét xong đã đƣợc lƣu giữ đầy đủ dƣới dạng ảnh.

Vì thế không nhất thiết phải lƣu giữ phiếu một thời gian dài nhƣ sau nhập tin.

Ngoài khu vực của máy quét, những ngƣời kiểm tra dữ liệu chỉ làm việc với

máy tính chứ không cần có các phiếu bên cạnh nên yêu cầu mặt bằng ít hơn,

giảm bớt các căng thẳng do thiếu mặt bằng làm việc trong các tổng điều tra.

Các tập phiếu không phải bàn giao, chuyển tiếp giữa các khâu khác nhau nên

không nhất thiết phải tổ chức các kệ/giá chứa phiếu cho dễ tìm kiếm, không

phải tổ chức bảo quản phiếu riêng theo từng công đoạn. Nhân công để bảo

quản, sắp xếp, bàn giao phiếu cũng giảm bớt đi rất nhiều.

d) Người lao động làm việc phong cách hiện đại, giảm căng thẳng

Với việc nhập tin từ bàn phím ngƣời nhập vừa phải giở phiếu, đọc thông

tin trên phiếu, gõ số liệu và kiểm tra trên màn hình (khi cần) với một tốc độ

rất cao. Còn nếu chất lƣợng ghi phiếu tốt thì ngƣời kiểm tra số liệu chỉ nhìn

lên màn hình và chủ yếu là xác nhận kết quả nhận dạng.

e) Có khả năng cung cấp sớm kết quả từng phần

Trong nhập tin từ bàn phím, kết quả tổng hợp chỉ có thể có đƣợc khi số

liệu đã nhập xong hoàn chỉnh, mà nhập số liệu lại là khâu kéo dài nhất. Việc

cung cấp sớm kết quả chỉ giải quyết đƣợc thông qua việc xử lý một cỡ mẫu

nào đó và công bố kết quả mẫu trƣớc, nghĩa là việc công bố sớm kết quả

bằng cách công bố từng phần bị giới hạn trong phạm vi lựa chọn hẹp.

Trong công nghệ quét và nhận dạng, ta có thể chia việc kiểm tra số liệu

nhận dạng thành những giai đoạn khác nhau, mỗi giai đoạn chỉ kiểm tra một

số trƣờng nhất định. Tổng chi phí nhân công cho kiểm tra số liệu tăng lên

không đáng kể, chủ yếu là phức tạp và tăng chi phí cho việc xây dựng ứng

dụng và lập trình. Điều này tạo khả năng cung cấp sớm kết quả theo từng

nhóm chỉ tiêu một cách mềm dẻo, hiệu quả. Nếu ta sử dụng giải pháp đánh

ký mã (mã dân tộc, nghề nghiệp, ngành,...) sau khi quét phiếu - đánh ký mã

trên hình ảnh các trƣờng mô tả, thực hiện trên máy tính chứ không phải trên

phiếu, và thực hiện ở giai đoạn sau thì lại càng có khả năng cung cấp rất sớm

một số chỉ tiêu cơ bản: dân số theo giới tính, độ tuổi, hôn nhân, trình độ,... do

có thể tạm bỏ qua thời gian cho việc đánh kỹ mã.

Page 40: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

190

Tuy nhiên, việc áp dụng ICR cũng gặp rất nhiều khó khăn nhƣ:

- Kinh phí đầu tư ban đầu

Nếu nhƣ việc nhập tin từ bàn phím chỉ yêu cầu các máy PC cho nhập tin

có cấu hình tối thiểu thì công nghệ ICR đòi hỏi những máy chủ, máy tính cá

nhân có bộ nhớ trong và ngoài lớn, tốc độ xử lý cao. Các máy quét cũng phải

là những máy chuyên nghiệp có tốc độ công nghiệp cao, độ phân giải cao,

chất lƣợng tốt và nhiều chức năng bổ sung khác và do vậy chi phí cho máy

quét rất lớn.

Phần mềm xử lý phiếu tự động không chỉ gồm những động cơ/phƣơng

tiện nhận dạng mà bao gồm cả những chức năng tạo nên một quy trình xử lý

phiếu tự động. Đây là những phần mềm chuyên biệt, có số lƣợng khách hàng

ít ỏi và phần mềm thƣờng đƣợc bán nhƣ một một giải pháp chứ không nhƣ

một phần mềm thông thƣờng. Chính vì vậy giá phần mềm cao và cũng rất

khó lựa chọn đánh giá phần mềm.

- Chất lượng, hiệu quả của công nghệ quét, nhận dạng quyết định bởi

thiết kế phiếu, chất lượng giấy, chất lượng in phiếu và nhất là chất lượng ghi

phiếu.

Để đảm bảo tốc độ và chất lƣợng số liệu nhập vào, ngay cả việc nhập tin

từ bàn phím cũng có những đòi hỏi nhất định đối với phiếu điều tra. Nhƣng

dù sao, giải pháp nhập tin từ bàn phím vẫn rất “dễ tính” đối với phiếu điều

tra. Nhƣng với việc xử lý phiếu tự động bằng công nghệ quét và nhận dạng

thì những đòi hỏi đối với phiếu điều tra là đặc biệt ngặt nghèo. Một tập phiếu

chất lƣợng có kém đến đâu thì rút cục nó vẫn có thể nhập tin từ bàn phím

đƣợc cho dù thời gian để nhập tin/sửa phiếu có thể tăng lên vài lần so với

những tập phiếu khác. Nhƣng một tập phiếu kém có thể rách giấy không phục

hồi lại đƣợc số liệu, có thể hoàn toàn không nhận dạng đƣợc hoặc thời gian

kiểm tra/sửa số có thể tăng lên đến 15-20 lần.

- Xây dựng, thiết kế ứng dụng, lập trình tốn nhiều công sức hơn

Ngay cả khi cán bộ kỹ thuật, cán bộ lập trình đã đạt đƣợc những kỹ năng

cần thiết thì việc thiết kế một ứng dụng cho một mẫu phiếu điều tra cũng sẽ

tốn nhiều công lao động gấp rất nhiều lần so với giải pháp nhập tin bàn phím.

Chính vì thế giải pháp ICR chỉ có thể có hiệu quả kinh tế đối với những điều tra

lớn, hoặc những điều tra định kỳ có mẫu phiếu giữ ổn định trong thời gian dài.

4.3. Những vấn đề về giấy in, in và bút dùng cho điều tra viên

Để ứng dụng công nghệ ICR trong xử lý các cuộc điều tra thống kê, ở tất

cả các khâu trong quy trình điều tra thống kê phải đảm bảo yêu cầu rất cao về

Page 41: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

191

kỹ thuật. Mục này chỉ đề cập đến việc lựa chọn giấy, in phiếu và bút ghi thông

tin trên phiếu điều tra.

a) Kinh nghiệm của các nƣớc

+) Về giấy in phiếu điều tra

Cho tới nay chƣa có cơ quan thống kê quốc gia nào đƣa ra tiêu chuẩn

chi tiết về giấy in phiếu điều tra (độ trắng, độ dày, độ cứng, độ đục, độ trong,

độ bền xé, chiều dài đứt, độ ẩm, độ hút nƣớc, độ kiềm, độ sần, độ nhám, độ

tro…) để ứng dụng công nghệ ICR mà chỉ có khuyến cáo chung là: Định

lƣợng > hoặc = 80 gram/m2, không quá bóng quá trơn, đủ độ dai.

+) Về việc in phiếu

Khuyến cáo của công ty cung cấp giải pháp phần mềm, kinh nghiệm của

các cơ quan thống kê bạn đều khuyến cáo rằng việc in phiếu cần lựa chọn nhà

in tốt nhất có thể, in tại một nơi và tốt nhất là in một lần (đợt) và cùng một

loại máy. Việc in ấn ngoài việc đảm bảo in sắc nét, các phiếu giống nhau

tuyệt đối còn phải không đƣợc có các vết “bẩn” khác từ máy in, các tờ phiếu

xén và đóng chính xác, loại bỏ tất cả những tờ có lỗi (nhăn giấy, xén lệch, in

lỗi,...). Nếu phiếu buộc phải in tại hơn một nơi hoặc in nhiều lần cần in thêm

ký tự phân biệt và phiếu in tại mỗi nơi cần đƣợc phân bổ theo khu vực, tránh

làm lẫn lộn.

+) Về bút để ghi thông tin trên phiếu

Về nguyên lý máy có thể nhận dạng đƣợc các ký tự viết bằng bút bi, bút

mực, bút chì... theo nguyên tắc viết chân phƣơng, rõ, sắc nét, và không viết

tràn ra các ô đã quy định. Tuy nhiên, trong khâu điều tra còn có sai sót cần

tẩy, xóa. Nếu mỗi lần tẩy, xóa lại phải chép lại thì rất tốn kém. Do vậy các

nƣớc khuyến cáo nên dùng bút chì mềm để ghi rõ nét và nếu có sai sót dùng

tẩy tẩy sạch và viết lại lần 2, lần 3... Nhƣ vậy, việc sử dụng bút bi hay bút chì

chỉ giải quyết 1 vấn đề là: Nếu dùng bút chì việc sửa các thông tin viết sai sẽ

rất đơn giản (tẩy sạch và viết lại). Nhƣng nếu dùng bút bi thì việc tẩy sạch

bằng mọi phƣơng pháp sẽ khó khăn hơn, thậm chí phải chép lại sẽ gây nhiều

tốn kém. Nếu dùng bút chì các nƣớc khuyến cáo dùng loại bút kim loại 2B

(đúng tiêu chuẩn đủ độ mềm để bảo đảm độ rõ, sắc nét khi viết).

b) Những kết quả thử nghiệm của Trung tâm Tin học

Sau đây là các phân tích về giấy in phiếu điều tra và bút ghi thông tin

trên phiếu qua các lần thử nghiệm.

+)Về giấy in và in phiếu

Page 42: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

192

Theo khuyến cáo của các nƣớc sử dụng công nghệ ICR phải dùng

loại giấy 80 gram/m2. Nhƣng sử dụng giấy 80 gram/m2 thì chi phí sẽ rất cao,

do vậy Trung tâm Tin học thống kê khuyến cáo khi thử nghiệm chỉ sử dụng

loại giấy 70 gram/m2.

- Thử nghiệm lần 1: Vụ Thống kê Dân số & Lao động cho biết Vụ đã

yêu cầu nhà in in riêng phiếu cho tỉnh Bắc Ninh bằng loại giấy 70 gram/m2

không bóng. Tuy nhiên Vụ Thống kê Dân số & Lao động không giám sát và

cũng không có phƣơng tiện giám sát về tiêu chuẩn giấy. Do vậy khi đƣa vào

máy quét bị kẹt nhiều (có thể do giấy không đủ tiêu chuẩn nhƣng không có

phƣơng tiện kiểm tra) mặt khác cách ghi thông tin không chuẩn do vậy chỉ

quét đƣợc 4 địa bàn.

- Thử nghiệm lần 2: Do rút đƣợc kinh nghiệm thử nghiệm lần 1 nên

giấy in để thử nghiệm lần 2 đƣợc nhà in chú ý hơn, vì vậy cũng loại giấy 70

gram/m2 nhƣng máy chạy tốt hơn, tuy vẫn gặp hiện tƣợng kẹt, rách giấy.

- Thử nghiệm lần 3: Lần 3 đƣợc thử nghiệm với phạm vi rộng hơn (21

tỉnh). Chất lƣợng giấy xét về độ dầy, dai và chất lƣợng in khá tốt nên chạy

qua máy quét tốt. Tuy nhiên giấy có mặt quá trơn nhẵn, điều tra viên viết

quá mờ và nhiều tỉnh còn sử dụng không đúng loại bút chì theo yêu cầu nên

rất khó khăn cho việc nhận dạng và kiểm tra xác thực dữ liệu. Ngoài ra, việc

xén không hết giấy (các tờ phiếu trong tập vẫn còn có phần dính vào nhau)

làm cho máy quét kéo rách các tờ phiếu.

- Thử nghiệm lần 4,5: Khiếm khuyết về giấy có mặt quá trơn của lần 4

đƣợc lặp lại nhƣ của lần 3. Nhƣng lần 4 phát sinh lỗi mới là phiếu đóng thừa

trang (hãn hữu có trƣờng hợp thiếu trang), một số trang in sót để trắng, rất

nhiều phiếu có những chấm bẩn do khâu in phiếu rơi vào các ô ghi thông tin

nên mất nhiều thời gian để khắc phục.

Những kết luận từ các lần thử nghiệm:

- Dùng giấy in phiếu loại 70 gram/m2 không bóng nếu đạt đúng

chuẩn thì không gây khó khăn gì khi quét phiếu.

- Phải có tiêu chuẩn rõ ràng về giấy (các thông số kỹ thuật) khi

đặt các nhà in in phiếu.

- Phải có ngƣời giám sát để bảo đảm cùng loại giấy in và theo

đúng tiêu chuẩn đã cam kết.

+) Về bút ghi thông tin

Trong các thử nghiệm từ trƣớc tới nay, các phiếu đều sử dụng bút chì là

chính. Tuy nhiên việc thử nghiệm với bút bi cũng đã đƣợc thực hiện. Trong

Page 43: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

193

lần thử nghiệm thứ hai, TTTHTK đã quét thử phiếu ĐTBĐ DS 2007 của 7

tỉnh viết bút bi nhƣng những tỉnh này chƣa hề đƣợc tập huấn về việc áp dụng

công nghệ scanning. Do việc ghi phiếu không cẩn thận, việc xóa bỏ /sữa chữa

thông tin tùy tiện nên việc nhận dạng và kiểm tra xác thực số liệu vô cùng

khó khăn.

Trong lần thử nghiệm thứ 5 Trung tâm khuyến cáo nên chọn 2 tỉnh thử

nghiệm dùng bút bi. Từ khuyến cáo này, Vụ Thống kê Dân số & Lao động đã

chọn tỉnh Yên Bái và Hƣng Yên dùng bút bi. Kết quả sử dụng bút bi nhƣ sau:

Phiếu của hai tỉnh này đƣợc quét tốt, không có tờ phiếu nào bị không định

dạng đƣợc do băng xóa làm dày lên mặt phiếu. Việc quét phiếu còn thuận lợi

ở chỗ phiếu không có bụi tẩy, bụi chì nên đỡ phải giũ sạch phiếu và không

phải vệ sinh máy nhiều nhƣ khi quét phiếu ghi bằng bút chì. Trong thử

nghiệm lần này, tỷ lệ nhận dạng của các tỉnh viết bằng các loại bút khác nhau

chênh lệch không đáng kể. Bút bi: Tỉnh Hƣng Yên tỷ lệ nhận dạng đƣợc

98,56%, tỉnh Hƣng Yên 98,09%; Bút chì: Tỉnh Bắc Giang tỷ lệ nhận dạng

đƣợc 98,19%, tỉnh Hải Dƣơng 96,17%. Việc kiểm tra xác thực dữ liệu của 2

tỉnh viết bút bi khá thuận lợi do ảnh nhìn rõ. Trong khi những tỉnh viết bút chì

nhiều khi khó khăn, thậm chí phải mang phiếu gốc ra để đối chiếu tìm lại dữ

liệu. Tuy việc quét phiếu và nhận dạng của 2 tỉnh viết bút bi rất thuận lợi

nhƣng vẫn cần phải cân nhắc kỹ hơn vì 2 tỉnh này trong các thử nghiệm trƣớc

đều chứng tỏ là 2 tỉnh làm tốt, các cán bộ tỉnh hƣớng dẫn, kiểm tra và giám

sát chặt chẽ. Nếu triển khai rộng rãi cần chú ý việc tập huấn, hƣớng dẫn sử

dụng băng xóa và có chỉ đạo, kiểm tra chặt chẽ.

PHẦN V

NGHIÊN CỨU, ĐỀ XUẤT QUY TRÌNH XỬ LÝ, CÁC NGUỒN LỰC

VÀ MÔ HÌNH TỔ CHỨC THỰC HIỆN XỬ LÝ TỔNG ĐIỀU TRA

DÂN SỐ VÀ NHÀ Ở 1/4/2009 ÁP DỤNG CÔNG NGHỆ ICR

Trên cơ sở những kinh nghiệm của 2 năm nghiên cứu, thử nghiệm công

nghệ ICR, nội dung của phần này sẽ trình bày những đề xuất về quy trình xử

lý, các nguồn lực và mô hình tổ chức thực hiện xử lý TĐT DS 1/4/2009 bằng

công nghệ ICR.

1. Quy trình xử lý điều tra áp dụng công nghệ ICR

1.1. Quy trình tổng thể

Dƣới đây là mô hình tổng thể quy trình xử lý TĐT DS

( Xem trang tiếp theo)

Page 44: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

194

Phiếu cắt lỗi?

Cắt phiếu

(đ/v phiếu đóng tập)

Phiếu có thể

quét?

Giao nhận phiếu

B

N

hậ

p

C

Không

Không

GGGiiiaaaooo

nnnhhhậậậnnn

vvvààà

CCChhhuuuẩẩẩnnn

bbbịịị

sssốốố

llliiiệệệuuu

Page 45: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

195

C

Quét phiếu

Phiếu lỗi không

định dạng đƣợc?

Nhận dạng tự động

Kiểm tra, xác thực

số liệu nhận dạng

Dữ liệu

không xác

định đƣợc

trên ảnh?

Xóa phiếu

/lô phiếu

Chuyển đổi dữ liệu

nhận dạng

D B

HHHệệệ

ttthhhốốốnnnggg

ppphhhầầầnnn

mmmềềềmmm

qqquuuéééttt

vvvààà

nnnhhhậậậnnn

dddạạạnnnggg

không

không

Page 46: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

196

1.2. Quy trình chi tiết, yêu cầu đối với từng công đoạn xử lý

a) Giao nhận phiếu tại các Trung tâm xử lý

Công việc giao nhận cũng phải thực hiện những nhiệm vụ sau:

Đếm đủ số lƣợng phiếu nhận đƣợc: số lô phiếu (địa bàn điều tra)

và số phiếu mỗi lô;

B

Nhập tin

D

Tích hợp dữ liệu 2 hệ

thống scanning + nhập

tin

Kiểm tra logic +

sửa dữ liệu

Kiểm tra số liệu

nhập tin

Kiểm tra số lƣợng

Số lƣợng

(ĐB, tập, hộ)

đúng? B/C

Hiểu chỉnh tự động

Tổng hợp kết quả

HHHệệệ ttthhhốốốnnnggg nnnhhhậậậppp tttiiinnn

Phân phát/cung cấp

số liệu

XXXửửử

LLLýýý

SSSaaauuu

ĐĐĐọọọccc///

NNNhhhậậậppp

TTTiiinnn

không

Page 47: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

197

Kiểm tra mã định danh của địa bàn bao gồm cả mã đơn vị hành

chính các cấp và những mã khác chung cho cả địa bàn (ví dụ mã khu

vực thành thị nông thôn) và nhập thông tin về địa bàn đã tiếp nhận vào

hệ thống, bao gồm cả những thông tin dành cho quản lý (nhƣ ai nhận

phiếu, ngày giờ nhận phiếu,…);

Sắp xếp địa bàn vào kho phiếu.

Nếu các địa bàn điều tra chƣa dán mã vạch thì ngƣời nhận phiếu của các

trung tâm xử lý phải nhập thông tin vào hệ thống quản lý xác nhận địa bàn đã

đƣợc tiếp nhận phiếu và in mã vạch của địa bàn, dán lên bìa của tập phiếu.

Khi áp dụng công nghệ xử lý phiếu bằng scanning, việc giao nhận phải đảm

nhận thêm nhiệm vụ phát hiện sớm những phiếu không thể quét đƣợc để có

những sửa chữa phù hợp hoặc phải chuyển sang nhập tin bàn phím. Nghĩa là

cùng lúc với việc thực hiện đếm phiếu cần phát hiện và để riêng những phiếu:

Có lỗi in phiếu, Phiếu bị trắng trong nhìn xuyên sang mặt sau, Bị rách/thủng,

ố, bẩn, Phiếu là bản photo chứ không phải bản in (thƣờng có màu giấy khác).

Do việc chép lại những phiếu này rất mất thời gian nên chúng sẽ đƣợc

tách riêng và nhập tin bàn phím. Các phiếu đƣợc tách riêng ra nên theo trọn

hộ, nghĩa là một hộ có trên 1 phiếu nếu có phiếu nào tách sang nhập tin thì

phải lấy tất cả các phiếu của hộ. Hệ thống quản lý cũng cần đƣợc bổ sung

những thông tin về từng địa bàn dành cho việc quản lý luồng số liệu: số

lƣợng phiếu mỗi loại sẽ chuyển sang scanning hay nhập tin. Việc quản lý,

sắp xếp phiếu sẽ phức tạp hơn rất nhiều khi phiếu phân thành hai loại, thêm

nữa mỗi địa bàn có thể gồm cả hai phần: scanning và nhập tin bàn phím.

Trong trƣờng hợp này ngƣời kiểm tra phân loại phiếu ngoài việc nhập thông

tin vào hệ thống, phải ghi thêm số phiếu đã rút bớt chuyển sang nhập tin để

ngƣời quét phiếu có thông tin kiểm chứng khi có sai số chênh lệch.

b) Cắt phiếu

Việc xén các tập phiếu làm rời từng tờ phiếu cần phải thực hiện với

phiếu dài (phiếu mẫu) trong TĐT DS. Phiếu phải cắt phía lề đóng ghim hoặc

dán gáy. Nhiều tập phiếu có thể bị xếp lộn đầu hoặc lộn mặt nên trƣớc khi cắt

phải kiểm tra lại việc sắp xếp của tập phiếu, nếu không các phiếu bị xếp

ngƣợc sẽ bị xén vào phần thông tin không thể xử lý bằng scanning đƣợc nữa.

Mà ngay cả để tiếp tục nhập tin cũng phải dán lại các tờ phiếu bị cắt lẹm để

khỏi làm mất thông tin. Thận trong với các đoạn kim loại ghim phiếu, cắt

xong phải giũ sạch phiếu. Nếu để vật kim loại kẹp lẫn giữa tập phiếu sẽ làm

hỏng máy quét. Các tờ/tập phiếu hỏng cần tách riêng để chuyển sang nhập

tin, ghi số lƣợng phiếu đã rút bớt khỏi lô phiếu lên etiket địa bàn. Các phiếu

Page 48: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

198

sau khi cắt phải giữ đúng thứ tự ban đầu, nhất là các tờ phiếu trong cùng một

tập phiếu phải đứng liền nhau và xếp tuần tự theo đúng số thứ tự trang.

c) Quét phiếu

Quy trình cụ thể cho quét phiếu phải đƣợc quy định và hƣớng dẫn chi

tiết và đƣợc tuân thủ đúng, bao gồm:

Trƣớc khi bắt đầu lô phiếu, phải đọc mã vạch của địa bàn. Chƣơng

trình sẽ kiểm soát xem lô phiếu chuẩn bị quét có hợp lệ không (địa bàn nằm

trong danh sách đã tiếp nhận phiếu nhƣng chƣa đƣợc quét). Nếu có thông báo

lỗi phải xác minh lại đã đọc đúng mã vạch hoặc chuyển cho bộ phần giao

nhận kiểm tra.

Phiếu đƣợc đặt vào theo thứ tự nào, theo chiều nào. Đối với loại phiếu

gồm nhiều tờ phiếu, phiếu phải đƣợc quét theo đúng thứ tự để chƣơng trình

kiểm soát đƣợc việc đầy đủ trọn vẹn của tập phiếu (logic set). Mặc dù phần

mềm xử lý phiếu có thể xoay chiều và lật lại tờ phiếu khi quét nhƣng tốc độ

quét khi đó bị ảnh hƣởng rõ rệt, do vậy phiếu phải đƣợc đặt vào khay theo

đúng chiều và đúng thứ tự.

Khi có lỗi kẹt giấy, sẽ có nhiều tờ phiếu đang nằm trong máy, phải

kiểm tra với ảnh đã quét xong để xác định chính xác phải bắt đầu quét tiếp từ

tờ phiếu nào.

Khi có lỗi phiếu không định dạng đƣợc, phải lập tức rút số phiếu trong

khay chứa phiếu ra ngoài rồi mới xác định nguyên nhận sự cố: phiếu bẩn,

rách, lỗi in hay đóng thừa/thiếu trang. Trong một số trƣờng hợp những tờ

phiếu không định dạng đƣợc trong lần quét đầu tiên có thể định dạng đƣợc

trong lần quét lại. Mỗi loại lỗi có thể có những ứng xử khác nhau (loại bỏ

trang phiếu thừa, quét lại hoặc rút phiếu lỗi chuyển sang nhập tin). Phải ghi

lại số phiếu rút ra nhập tin vào etiket địa bàn. Nếu phiếu điều tra chỉ có một

tờ (phiếu ngắn) việc xử lý sự cố đơn giản hơn, còn với phiếu dài nếu có tập

phiếu quét đƣợc dở dang, phải xóa tập phiếu này (xóa set) rồi quét tiếp số

phiếu còn lại vào cùng lô.

Khi kết thúc quét một lô phiếu, hệ thống kiểm tra số lƣợng phiếu quét

đƣợc so với số lƣợng giao nhận đã ghi trong cơ sở dữ liệu. Nếu chênh lệch sẽ

có thông báo cho cán bộ vận hành máy quét. Ngƣời vận hành kiểm tra với

tổng số trên etiket (xem ngƣời giao nhận có thể mắc lỗi không), kiểm tra xem

ngƣời cắt phiếu hoặc chính mình có rút bớt phiếu chuyển sang nhập tin

không. Nếu số lƣợng phiếu cộng thêm số đã rút bớt chuyển nhập tin khớp với

tổng số, ngƣời vận hành xác nhận số lƣợng, hệ thống sẽ coi số phiếu bị thiếu

Page 49: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

199

là số lƣợng phiếu chuyển nhập tin (có thể cần phải nhập thông tin cho hệ

thống biết phiếu đƣợc rút ra từ khâu nào: cắt phiếu hay quét phiếu). Nếu

không, phải xác minh lại công việc của mình, kiểm tra xem có đọc đúng mã

vạch cần đọc không hoặc chuyển cho bộ phân giao nhận xác minh số lƣợng.

Việc xác minh chính xác số lƣợng một cách tự động bởi hệ thống có một khó

khăn do các phiếu rút bớt chuyển sang nhập tin có thể rút thành các lần khác

nhau tại các khâu khác nhau và không thể xác định đƣợc là khi chuyển sang

hệ thống nhập tin chúng đã nhập xong hết chƣa.

Máy quét cần phải đƣợc vệ sinh trung bình 2 giờ một lần. Tùy theo mức

độ bẩn của phiếu mà khoảng thời gian này có thể thay đổi.

d) Kiểm tra xác thực dữ liệu nhận dạng

Thông thƣờng đây là công đoạn tốn kém nhân lực nhất. Ngƣời thực hiện

phải nhập những trƣờng dữ liệu không nhận dạng đƣợc, nhập lại những

trƣờng hệ thống nhận dạng không chắc chắn (mức độ chắc chắn không đạt đủ

yêu cầu đƣợc xác định trƣớc bởi ngƣời phát triển ứng dụng cụ thể), kiểm tra

xác nhận tất cả những trƣờng đã nhận dạng bằng những công cụ của hệ

thống. Một số kiểm tra logic cũng đƣợc kết hợp trong công đoạn này đƣợc

viết bởi các lệnh chƣơng trình bổ sung hoặc các chƣơng trình “nhúng”. Chủ

yếu các kiểm tra logic trong giai đoạn này là những kiểm tra đơn giản mà

ngƣời thực hiện kiểm tra có thể xác định đƣợc dựa trên ảnh hoặc trên các

trƣờng thông tin liền kề hoặc là những kiểm tra nhằm xác định việc nhận

dạng có chính xác đúng nhƣ trên phiếu ghi hay không nhằm ngăn chặn việc

hệ thống nhận dạng sai hoặc ngƣời kiểm tra xác thực dữ liệu có sai sót.

2. Nguồn lực vật chất, nguồn nhân lực khi xử lý Tổng điều Tra Dân số và

Nhà ở 1/4/2009 áp dụng công nghệ ICR

2.1. Nghiên cứu, đề xuất nguồn lực vật chất khi ứng dụng công nghệ ICR

để xử lý Tổng điều tra dân số và nhà ở 1/4/2009

a) Các căn cứ dự tính

- Ƣớc lƣợng dân số ở thời điểm Tổng điều tra để tính ra số hộ, số phiếu

(phiếu dài, phiếu ngắn)

- Mẫu phiếu sơ bộ do Vụ Thống kê Dân số và Lao động thiết kế

- Các khuyến cáo của chuyên gia Öc

- Kết quả thí điểm công nghệ ICR 2007, 2008 ở Trung tâm Tin học TK

+) Ước lượng dân số ở thời điểm Tổng điều tra để tính ra số hộ, số

phiếu (phiếu dài, phiếu ngắn)

Page 50: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

200

Theo Niên giám Thống kê năm 2006, dân số trung bình nƣớc ta năm

2006 là 84155,8 nghìn ngƣời (niên giám thống kê trang 39), mỗi năm tăng

trung bình 1049,5 nghìn ngƣời. Nhƣ vậy, năm 2007 là 85205,3 nghìn ngƣời,

năm 2008 là 86254,8 nghìn ngƣời, năm 2009 là 87304,3 nghìn ngƣời

Số nhân khẩu bình quân 1 hộ, theo kết quả điều tra biến động dân số,

nguồn lao động năm 2007 số nhân khẩu bình quân 1 hộ là: 4,09. Nhƣ vậy, tới

thời điểm điều tra cả nƣớc sẽ có 21346 nghìn hộ (87304,3 : 4,09)

+) Mẫu phiếu sơ bộ do Vụ Thống kê Dân số và Lao động thiết kế

Mẫu phiếu sơ bộ do Vụ Thống kê Dân số và Lao động thiết kế gồm 2

loại:

- Phiếu ngắn (điều tra toàn bộ) đƣợc thiết kế trên khổ giấy A3 in 2 mặt

cho 6 nhân khẩu

- Phiếu dài (điều tra mẫu) đƣợc thiết kế trên khổ giấy A4 gồm 6 tờ (12

trang) đóng thành cuốn cho 6 nhân khẩu

- Tỷ lệ điều tra mẫu đƣợc Vụ Thống kê Dân số và Lao động khẳng định

là 15%.

Trong thực tế theo kết quả Điều tra biến động dân số năm 2007 có 11%

số hộ có trên 6 ngƣời (phải dùng 2 phiếu). Nhƣ vậy, số phiếu thực sẽ = số hộ

thực tế nhân với 111%.Với các dữ kiện trên số phiếu, số tờ và số trang phiếu

đƣợc tính toán sơ bộ nhƣ sau:

Số phiếu (đã tính hộ 2 phiếu)

1000 P

Số tờ (đã tính hộ 2 phiếu)

1000P

Số hộ Chia ra: Chia ra:

(nghìn

hộ)

Tổng số Phiếu

ngắn A3

(85%)

Phiếu dài

A4

(15%)

Tổng số Phiếu

ngắn

A3

(85%)

Phiếu

dài

A4

(15%)

21 346 23 694 20140 3554 41464 20140 21324

b) Dự tính về thiết bị, phần mềm

Về thiết bị:

Để thực hiện Kế hoạch, trên cơ sở thử nghiệm chúng tôi sơ bộ dự tính

các thiết bị chính nhƣ sau

+) Máy quét (scanner)

Page 51: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

201

Số lƣợng máy phụ thuộc 3 yếu tố: số lƣợng tờ phiếu; tốc độ máy quét;

số giờ làm việc /ngày, số ngày làm việc/tháng và số tháng dự tính để quét.

- Về số lƣợng tờ phiếu đã có ở bảng trong mục trƣớc

- Về tốc độ máy quét. Khi thực hiện quét, tốc độ của máy cũng chỉ đạt

60% tốc độ lý thuyết. Theo chúng tôi có thể dùng loại máy quét có tốc độ lý

thuyết 100 tờ A4/ phút, nhƣ vậy tốc độ thực (có tải) sẽ ở mức 55 tờ/phút cho

loại phiếu khổ A4 và 40 tờ/phút cho loại phiếu khổ A3. Ở Việt Nam sử dụng

bút chì, tẩy nên sẽ còn nhiều bụi bẩn, do vậy, theo chúng tôi, cứ sau 1 giờ 30

phút làm vệ sinh 1 lần, mỗi lần 6 phút. Vì vậy giờ máy chạy thực là 56

phút/giờ.

- Về số giờ làm việc trong ngày. Theo chúng tôi, để khai thác khả năng

của thiết bị, mỗi ngày sẽ làm việc 2 ca. Do cƣờng độ làm việc rất cao nên mỗi

ca chỉ làm việc 6 giờ, trong đó giờ vận hành máy quét thực là 5 giờ/ca (hay

10 giờ/ngày - đã trừ thời gian chuẩn bị và nghỉ giữa ca)

- Về số ngày làm việc trong tuần: 6/7 ngày (chỉ nghỉ ngày chủ nhật và

ngày lễ)

- Mục tiêu về thời gian quét. Kỳ tổng điều tra dân số 1/4/1999 tổ chức

nhập tin bằng bàn phím thì riêng khâu nhập tin thô mất 12 tháng. Cuộc Tổng

điều tra kỳ này chúng tôi đặt mục tiêu thời gian quét cần phấn đấu là 6 tháng

(180 ngày – 26 ngày chủ nhật, lễ = 154 ngày)

Từ các dữ kiện nêu trên có thể tính ra các dữ kiện để tính số máy quét

cần dùng là:

- Thời gian thực để quét hết số phiếu:

Phiếu ngắn: 20 140 000 tờ A3 : 40 tờ/phút = 503 500 phút

Phiếu dài: 21 324 000 tờ A4: 50 tờ/phút = 426 480 phút

---------------

Tổng cộng 929 980 phút

- Thời gian thực để 1 máy quét làm việc trong ngày (2 ca, mỗi ca 6 giờ,

mỗi giờ 56 phút đã trừ giờ dừng máy làm vệ sinh)

10 giờ x 56 phút/giờ = 560 phút

- Thời gian thực để 1 máy quét quét hết số phiếu – ngày

929 980 phút: 560 phút = 1661 ngày

Page 52: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

202

- Để đạt mục tiêu quét trong 6 tháng số máy quét thực cần dùng là

1661 ngày : 154 ngày = 10, 8 máy

Tuy nhiên 10,8 máy theo tính toán nói trên là trong điều kiện máy vận

hành thông suốt. Trong thực tế, khi làm thử trên máy quét Fujitsu fi-5900C

thời gian máy có sự cố chiếm tỷ lệ khá lớn (Hiện TTTHTK và Công ty cung

cấp máy chƣa tìm ra nguyên nhân). Ngoài ra còn phải mất thời gian giải

quyết kẹt giấy, thời gian nhập thông tin về các địa bàn. Vì vậy, thời gian quét

chỉ đạt khoảng 70% thời gian vận hành của máy. Do vậy, cần trang bị 14

máy quét có tốc độ bằng hoặc lớn hơn 100 tờ A4/phút.

Để 14 máy thực hiện quét liên tục, những phiếu phải quét lại đƣợc

chuyển tới máy quét khác có tốc độ chậm hơn. Dự tính số lƣợng các phiếu

này không nhiều nên chỉ trang bị tại mỗi Trung tâm 01 máy quét tốc độ thấp.

+) Máy chủ

Số lƣợng máy chủ phụ thuộc vào khối lƣợng thông tin cần xử lý, tổ chức

xử lý và quy trình xử lý (quét phiếu, nhận dạng, sửa dữ liệu, chuyển đổi dữ

liệu, tổng hợp…). Theo tính toán của chúng tôi, để xử lý thông tin ở 3 TTTH

cần 9 máy chủ và chia thành 2 loại

- 3 Máy chủ mạnh: 02 máy cho 2 TTTH có khối lƣợng xử lý lớn, 01

máy dành riêng cho khâu tiếp nhận và tổng hợp thông tin

- 6 Máy chủ trung bình (mỗi Trung tâm 2 máy)

+) Máy trạm (PC)

Theo quy trình xử lý và để phục vụ 14 máy quét, số lƣợng máy PC cần

sử dụng khoảng 180 máy đƣợc phân chia theo chức năng nhƣ sau: 14 PC

dành để nhận thông tin từ máy quét, 10 PC phục vụ việc nhận dạng ký tự, 5

PC làm nhiệm vụ chuyển đổi dữ liệu, 77 PC dùng để sửa dữ liệu, 33 PC nhập

phiếu không nhận dạng đƣợc, 13 PC kiểm, sửa logic, 10 PC phục vụ khâu

chuẩn bị số liệu đầu vào, 5 PC quản lý dữ liệu, 10 PC phục vụ khâu lập trình

và test thử phần mềm, 3 PC dùng cho máy quét nhỏ để quét các phiếu lỗi.

Các PC sử dụng để xử lý lô có khối lƣợng lớn (quét, nhận dạng, chuyển

đổi) phải có tối thiểu 1GB RAM, tốt nhất là 2GB RAM. Tốc độ CPU của

những PC này cao nhất ở mức có thể. Cần có màn hình LCD 19’’ xoay đƣợc

180 độ để có thể hiển thị toàn bộ tờ phiếu khổ A3 với độ room 80-90%

+) Máy in

Cần 3 loại máy in cho toàn hệ thống:

- 3 Máy in nhanh để in kết quả tổng hợp

Page 53: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

203

- 6 máy in thƣờng để in kiểm tra lỗi và các tài liệu thông thƣờng

- 1 máy in màu dùng để phát triển các sản phẩm kết quả tổng điều tra.

+) Máy cắt giấy

Do phiếu đƣợc đóng thành cuốn nên khi đƣa vào máy quét cần đƣợc cắt

rời. Kinh nghiệm cho thấy sử dụng máy cắt cỡ nhỏ (dao xén khoảng 65-

70cm) hiệu quả hơn vì thao tác nhanh hơn. Mỗi máy cắt sẽ phục vụ đƣợc 2

máy quét nhƣ vậy nếu sử dụng 14 máy quét thì cần sử dụng 7 máy cắt.

Nhƣng do xử lý ở 3 TTTH nên số lƣợng máy cắt cần thiết là 8 máy (TTTH

Hà Nội, TP HCM mỗi đơn vị 3 máy, Đà Nẵng 2 máy)

Ngoài những thiết bị trên, các thiết bị khác nhƣ máy in, thiết bị sao lƣu,

thiết bị mạng, v.v. cũng đƣợc dự tính trong bảng dự kiến phân bổ thiết bị cho

các Trung tâm.

+) Phụ tùng linh kiện thay thế

Phụ tùng linh kiện thay thế đƣợc tính trên cơ sở độ bền của linh kiện

mà nhà sản xuất thiết bị đã ghi trong catalog của thiết bị. Các linh kiện

thiết bị cần thay thế là các rulo kéo giấy của máy quét,.. Số lƣợng cụ thể

phụ thuộc vào từng loại máy cụ thể.

Phần mềm:

+) Phần mềm hệ thống

Hiện tại cả 3 TTTH đều sử dụng hệ điều hành Windows Server 2003

SP2 cho máy chủ, Windows XP cho máy trạm, sử dụng hệ quản trị CSDL

SQL Server 2003. Nhƣng từ nay đến năm 2009 cần xem xét và cập nhật

lại.

+) Phần mềm quét

Từ 2006 Trung tâm Tin học Thống kê khi thí điểm đã sử dụng phần

mềm Form 5.2 của Công ty ReadSoft Thụy Điển. Nếu tiếp tục mua phần

mềm của Công ty này cho xử lý TĐT DS 1/4/2009 là tốt nhất.

c) Dự kiến phân bổ thiết bị cho 3 Trung tâm Tin học

Xử lý tổng điều tra kỳ này sẽ do 3 Trung tâm Tin học trong ngành đảm

nhận. Trung tâm Tin học Thống kê đảm nhận 28 tỉnh từ Nghệ An trở ra,

Trung tâm Tin học khu vực III đảm nhận 16 tỉnh miền Trung, Tây nguyên và

Ninh Thuận; Trung tâm Tin học khu vực II đảm nhận 20 tỉnh còn lại. Theo cơ

cấu dân số các tỉnh năm 2006 (Niên giám thống kê 2006 trang 37, 38) thì cơ

cấu nhƣ sau: Các tỉnh do TTTHTK đảm nhận chiếm 44%, do TTTHKV III

đảm nhận chiếm 19,6%, TTTHKVII đảm nhận chiếm 36,4%

Page 54: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

204

Ngoài ra, Trung tâm Tin học Thống kê Hà Nội còn đóng vai trò chỉ đạo

trong việc xây dựng chƣơng trình, nhận các file dữ liệu từ 2 Trung tâm còn

lại, tổng hợp theo kế hoạch và quản lý toàn bộ hệ thống xử lý. Dự kiến phân

bố thiết bị nhƣ sau:

Dự kiến phân bố thiết bị 3 Trung tâm Tin học

STT Tên thiết bị Tổng số TTTH TK TTTHTK III TTTHTK II

I Thiết bị

1 Máy Scanner

- Máy quét tốc độ cao 14 6 3 5

- Máy quét tốc độ thấp 3 1 1 1

2 Máy chủ

- Máy chủ mạnh 2 1 - 1

- Máy chủ trung bình 7 3 2 2

3 Máy PC 180 83 31 66

4 Máy in

- Máy in Laser tốc độ cao 3 3 - -

- Máy in Laser thƣờng 6 2 2 2

- Máy in Laser màu 1 1 - -

5 Lƣu điện UPS 10 KVA 4 2 1 1

6 Thiết bị mạng

- Switch Gigabit Ethernet 24 ports 14 6 3 5

- Path Panel 24 ports 11 5 2 4

- Tủ mạng 3 1 1 1

- Cáp mạng và vật tƣ khác (*)

8 Thiết bị Backup 3 1 1 1

8 Máy hút ẩm 10 4 2 4

9

Máy điều hòa nhiệt độ 24.000

BTU 26

13 5 8

10 Máy cắt 8 3 2 3

11 Máy Photocopy 1 1 - -

12 Linh kiện phụ tùng thay thế (**)

II Phần mềm

1 Phần mềm hệ thống

2 Phần mềm nhận dạng ICR

Ghi chú:

(*) Cáp mạng và vật tƣ khác đƣợc tính dựa trên vị trí lắp đặt cụ thể của mỗi LAN

(**) Phụ tùng linh kiện thay thế của máy quét tính trên cơ sở độ bền của linh kiện mà nhà

sản xuất thiết bị đã ghi trong catalog của thiết bị. Các linh kiện thiết bị cần thay thế là các rulo kéo

giấy của máy quét,.. Số lƣợng cụ thể phụ thuộc vào từng loại máy cụ thể

Page 55: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

205

d) Mặt bằng lắp đặt thiết bị

Với phƣơng án xử lý tập trung ở 3 Trung tâm Tin học của ngành việc bố

trí mặt bằng để lắp đặt thiết bị là một vấn đề rất quan trọng. Trung tâm Tin

học Thống kê sẽ đƣợc Tổng cục Thống kê bố trí làm việc tại 1 phần tầng 4,

một phần tầng 5, tầng 6 và tầng 7 của nhà 7 tầng tại 54 Nguyễn Chí Thanh-

Hà Nội với diện tích xây dựng khoảng 1000 m2. Với diện tích mặt bằng này

theo chúng tôi đã đáp ứng đƣợc các yêu cầu lắp đặt thiết bị để phục vụ xử lý

kết quả tổng điều tra. Trung tâm Tin học khu vực II hiện chƣa xây dựng xong

trụ sở làm việc và đang phải đi thuê với diện tích rất hẹp. Đây là khó khăn rất

lớn khi tiếp nhận máy móc thiết bị. Hiện Trung tâm đang phối hợp chặt chẽ

với Tổng cục để thúc đẩy nhanh việc xây dựng trụ sở mới. Trung tâm Tin học

khu vực II có trụ sở làm việc đã đƣợc sửa chữa và nâng cấp đạt yêu cầu để

lắp đặt thiết bị phục vụ xử lý kết quả Tổng điều tra.

e) Kho chứa phiếu

Kho chứa phiếu điều tra là nơi tiếp nhận, lƣu giữ, bảo quản, luân

chuyển phiếu trong suốt thời gian xử lý và thời gian lƣu giữ cần thiết khi kết

thúc các quy trình xử lý. Kho chứa phiếu phải đạt các yêu cầu sau: Phải đủ

diện tích chứa phiếu ở từng khu vực theo tiêu chuẩn: Xếp riêng phiếu cho

từng tỉnh/huyện/xã để dễ tìm, không xếp cao quá để dễ lấy; Kho phải là nơi

cao ráo (không ẩm thấp không thấm dột); Phải có kệ kê (không để phiếu trực

tiếp trên sàn nhà, nền nhà); Phải có phƣơng tiện chống mối, mọt; chống trộm

cắp, chống cháy nổ; Phải là nơi thuận tiện cho việc vận chuyển (vào/ra)

Trong kỳ Tổng điều tra này, theo dự tính có khoảng 600 tấn phiếu. Nếu

mỗi m2 xếp đƣợc 500 kg thì cần khoảng 1200 m

2. Nhƣng để thuận tiện cho

khâu vận chuyển, tìm kiếm phải để lại lối ra/vào. Lối ra/vào chiếm khoảng

1/3 diện tích. Nhƣ vậy tổng diện tích kho cần thiết khoảng 1800m2. Diện tích

kho chứa phiếu ở từng TTTHTK là: Trung tâm Tin học thống kê: 792 m2;

Trung tâm Tin học khu vực II: 720 m2; Trung tâm khu vực III: 288m

2.

Việc thuê đƣợc kho đáp ứng đầy đủ các yêu cầu nêu ở mục 1 trên đây ở

3 thành phố lớn (Hà Nội, Đà Nẵng, TP HCM) là việc làm rất khó khăn và tốn

kém. Để có thể đáp ứng đƣợc yêu cầu có thể xem xét giải pháp sau: Do việc

xử lý thông tin thống kê nói chung và xử lý bằng công nghệ ICR nói riêng là

xử lý theo lô. Nghĩa là có thể dùng giải pháp xử lý theo kiểu “cuốn chiếu”

xong tỉnh này rồi chuyển sang tỉnh khác. Vì vậy kho chứa phiếu có thể để

phân tán ở 64 Cục Thống kê cấp tỉnh. Khi xử lý tới tỉnh nào thì sẽ yêu cầu

tỉnh đó mang phiếu về Trung tâm Tin học tƣơng ứng. Với giải pháp này sẽ

Page 56: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

206

tiết kiệm 1/2 kho chứa phiếu và 1/2 thời gian lƣu kho (chỉ lƣu kho sau khi đã

quét xong).

2.2. Đề xuất, dự tính nguồn nhân lực

Nguồn nhân lực để xử lý thông tin tổng điều tra thống kê phụ thuộc vào

các công việc và các thao tác trong từng công việc. Để dự tính đƣợc số lao

động cần thiết cần phân tích rõ các công việc và các thao tác trong từng công

việc.

a) Các công việc xử lý và các thao tác trong từng công việc

+) Các công việc

Công việc xử lý thông tin bằng công nghệ ICR gồm: Viết các

chƣơng trình ứng dụng; Tiếp nhận và vận chuyển phiếu đến nơi xử lý; Chuẩn

bị phiếu điều tra cho khâu xử lý; Vuốt phiếu điều tra để không còn tờ phiếu

nào bị gấp, quăn mép; Cắt phiếu điều tra (đối với phiếu đƣợc đóng thành

quyển); Quét phiếu; Bảo trì bảo dƣỡng thiết bị; Verify; Sửa lỗi logic; Tổng

hợp kết quả điều tra.

+) Mô tả các thao tác trong từng công việc

- Viết các chương trình ứng dụng: Công việc này gồm: định dạng

phiếu điều tra trên máy, viết các chƣơng trình ứng dụng: quản lý thông tin,

verify, sửa lỗi logic, hiệu chỉnh, tổng hợp... các công việc này do kỹ sƣ tin

học thực hiện.

- Tiếp nhận, vận chuyển phiếu: Công việc này gồm: Tiếp nhận phiếu

điều tra từ các Cục Thống kê giao nộp, mở sổ ghi chép số lƣợng phiếu, số

lƣợng địa bàn, ký biên bản giao/nhận; xếp phiếu trên kệ kê theo đúng quy

định: tỉnh/huyện/xã để bảo đảm dễ tìm, dễ lấy. Xuất/ nhập phiếu cho ngƣời

vận chuyển tới khâu xử lý; Vận chuyển phiếu đã xử lý về kho theo đúng quy

định.

- Chuẩn bị phiếu điều tra cho khâu xử lý: Công việc này gồm: tiếp nhận

phiếu từ ngƣời vận chuyển phiếu; mở hòm phiếu; kiểm tra các cặp phiếu, đối

chiếu tên địa bàn ghi trên etiket với danh sách địa bàn điều tra, dán mã vạch;

cập nhật các thông tin về địa bàn điều tra vào chƣơng trình quản lý phiếu điều

tra.

- Vuốt, ép phiếu điều tra: Công việc này gồm: Mở cặp phiếu, kiểm tra

và vuốt các phiếu bị quăn mép, bị gấp để bảo đảm rằng phiếu hoàn toàn

phẳng sẵn sàng cho các công việc tiếp theo. Trong trƣờng hợp nghi ngờ phải

đếm lại số phiếu trong từng cặp.

Page 57: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

207

- Cắt phiếu (đối với phiếu được đóng thành quyển)

Trong Tổng điều tra dân số kỳ này có 15% phiếu điều tra mẫu. Phiếu

điều tra mẫu gồm 12 trang khổ A4 đƣợc đóng thành quyển. Để đƣa vào máy

quét cần phải cắt rời thành các tờ A4. Việc cắt phiếu có các thao tác sau: Mở

cặp phiếu lấy phiếu, dỗ phiếu ngay ngắn và phân chia phiếu thành các tập

(mỗi tập khoảng 500 tờ, đƣa vào máy cắt đã đƣợc định vị sẵn và cắt rời phần

đóng ghim; sau khi cắt phải giũ lại phiếu để các tờ không dính nhau, giũ các

ghim còn sót trong tập phiếu; ghép các tập theo đúng thứ tự ban đầu của địa

bàn điều tra để sẵng sàng chuyển sang máy quét.

- Quét phiếu điều tra: Công việc này gồm: đƣa phiếu vào máy quét nhấn

nút điều khiển để máy quét làm việc; theo dõi quá trình làm việc của máy; xử

lý các trục trặc có thể xảy ra (kẹt giấy, phiếu lỗi do thừa hoặc thiếu trang…);

đƣa phiếu đã quét xong để đóng gói vào cặp ban đầu.

- Bảo trì bảo dưỡng máy quét: Theo kinh nghiệm của Cục Thống kê Öc,

khi máy chạy đƣợc 120 phút cần dừng máy để làm vệ sinh (hút hết bụi bẩn,

lau bánh xe kéo giấy, làm sạch máy bằng các loại khăn lau, dầu lau chuyên

dùng. Cán bộ làm công việc này phải đƣợc đào tạo để thao tác chuẩn xác.

- Verify: Verify là thao tác sửa lỗi do ngƣời ghi thông tin không rõ máy

không nhận dạng đƣợc. Ngƣời thực hiện Verify làm việc trực tiếp trên máy

tính làm chức năng verify. Phần mềm verify sẽ phóng to các ký tự máy chƣa

nhận dạng đƣợc để ngƣời verify xác định và sửa lại cho đúng.

- Sửa lỗi logic: Sau khi verify thông tin đƣợc chuyển đổi sang dạng text

và chạy qua chƣơng trình kiểm tra logic. Các lỗi logic in ra hoặc lƣu trong

máy tính cho từng địa bàn điều tra. Ngƣời có nhiệm vụ sửa lỗi logic căn cứ

vào các thông báo này để sửa cho tới khi hết lỗi. Số ngƣời tham gia sửa lỗi

logic phụ thuộc vào chất lƣợng ở khâu điều tra. Ngƣời tham gia sửa lỗi logic

là ngƣời phải đƣợc đào tạo kỹ lƣỡng về nghiệp vụ và đặc biệt phải nắm đƣợc

các quan hệ logic trong từng chỉ tiêu ghi trong phiếu.

- Tổng hợp kết quả điều tra: Đây là khâu cuối cùng của quá trình xử lý.

Thông tin sau khi sửa hết lỗi đƣợc ghép thành các file. Chƣơng trình tổng

hợp sẽ tổng hợp các thông tin này thành các bảng biểu thống kê.

b) Dự tính nguồn nhân lực

Từ các phân tích trên và qua thực tế thử nghiệm, yêu cầu về thời gian

xử lý có thể tính đƣợc nguồn nhân lực nhƣ sau:

Page 58: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

208

+) Nhân lực có trình độ cao (kỹ sư tin học)

Nguồn nhân lực này sẽ đƣợc huy động ở 3 Trung tâm Tin học với

nhiệm vụ chính là: Phát triển các ứng dụng; xây dựng quy trình xử lý; theo

dõi, giám sát các thao tác ở từng quy trình; đào tạo, hƣớng dẫn về chuyên

môn, nghiệp vụ; quản lý thông tin; tổng hợp kết quả điều tra.

Do khả năng có hạn, theo dự tính sẽ huy động khoảng 20 kỹ sƣ tin học

ở 3 Trung tâm (Trung tâm Tin học thống kê 12 ngƣời, Trung tâm khu vực II

khoảng 5 ngƣời và Trung tâm khu vực III khoảng 3 ngƣời)

+) Các loại nhân lực khác

Căn cứ vào quy trình, các thao tác đã mô tả ở trên, việc dự tính số nhân

lực đƣợc tính theo đầu máy quét với các định mức sau: Khâu vận chuyển (ở

tất cả các công đoạn) 1/2 ngƣời; Khâu chuẩn bị số liệu 1 ngƣời; Cắt phiếu 1

ngƣời; Quét 1 ngƣời; Verify 4 ngƣời; Sửa lỗi logic 5 ngƣời; Bảo dƣỡng thiết

bị 1/2 ngƣời. Tổng cộng 13 ngƣời/1 máy quét

Để xử lý toàn bộ kết quả điều tra trong 6 tháng và làm việc 2 ca/ngày

với 11 máy quét thì số nhân lực cần sử dụng là:

11 máy quét x 13 ngƣời x 2 ca/ngày = 286 ngƣời

Trên đây là số liệu dự tính. Trong thực tế tùy chất lƣợng phiếu điều tra

số nhân lực có thể phải điều chuyển từ khâu này sang khâu khác để đạt hiệu

quả cao nhất.

3. Mô hình tổ chức thực hiện xử lý Tổng điều tra Dân số và Nhà ở

1/4/2009 áp dụng công nghệ ICR

3.1. Mô hình tổ chức thực hiện xử lý Tổng điều tra Dân số và Nhà ở

1/4/2009

a) Mô hình xử lý dữ liệu Tổng điều tra Dân số và Nhà ở 2009

Mô hình tổ chức xử lý thích hợp nhất cho TĐT DS năm 2009 là tổ chức

xử lý tại 3 Trung tâm Tin học: Trung tâm Tin học thống kê xử lý cho các tỉnh

miền Bắc (28 tỉnh/ thành phố miền Bắc); Trung tâm Tin họcThống kê khu

vực III xử lý cho các tỉnh miền Trung (16 tỉnh miền Trung và Tây nguyên) và

Trung tâm Tin học thống kê khu vực II xử lý cho các tỉnh miền Nam (20

tỉnh/thành phố). Mô hình xử lý dữ liệu TĐT DS 2008 nhƣ sau:

Page 59: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

209

Trong mô hình này, việc xử lý tại tại mỗi Trung tâm Tin học đƣợc thực

hiện trong mạng cục bộ (LAN). Mỗi mạng có ít nhất 02 máy chủ, máy trạm,

thiết bị sao lƣu, firewall. Số lƣợng thiết bị cụ thể đƣợc tính toán trên cơ sở số

lƣợng phiếu sẽ đƣợc xử lý tại mỗi trung tâm. Cấu hình kỹ thuật của các thiết

bị có trong Phụ lục số 1. Các mạng LAN này kết nối với nhau qua Internet.

Việc truy nhập vào các mạng LAN xử lý đƣợc kiểm soát thông qua bức tƣờng

lửa (firewall).

Xử lý dữ liệu tại các Trung tâm thực hiện theo hình thức cuốn chiếu.

Trung tâm Tin học Thống kê khu vực II, Trung tâm Tin học Thống kê khu

vực III chỉ thực hiện đến công việc chuyển đổi dữ liệu. Kết quả xử lý sau

bƣớc chuyển đổi sẽ đƣợc truyền từ Trung tâm Tin học Khu vực II, Trung tâm

Tin học Khu vực III về Trung tâm Tin học Thống kê định kỳ thông qua

đƣờng kết nối Internet. Công việc kiểm tra, hiệu chỉnh tự động dữ liệu và

tổng hợp các biểu thống kê chỉ đƣợc thực hiện tại Trung tâm Tin học thống

kê.

Page 60: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

210

b) Sơ đồ xử lý dữ liệu tại các Trung tâm Tin học

Khác với nhập tin bằng bàn phím truyền thống, việc xử lý dữ liệu sử

dụng công nghệ ICR nói chung sẽ phải lần lƣợt đi qua các bƣớc: Quét phiếu

(scanning); Nhận dạng (interpret); Sửa lỗi (verify); Chuyển đổi dữ liệu

(transfer). Các công việc chuyển ảnh (image) từ máy PC điều khiển máy quét

lên máy chủ và việc sao lƣu ảnh, sao lƣu dữ liệu sau khi chuyển đổi cũng là

những công việc trong quy trình xử lý dữ liệu. Sơ đồ dƣới đây chỉ ra các công

việc, trình tự thực hiện và luồng dữ liệu trong quá trình xử lý dữ liệu tại các

Trung tâm Tin học.

c ) Mạng xử lý dữ liệu (LAN) tại các Trung tâm Tin học

Xử lý dữ liệu TĐT DS 2009 tại mỗi Trung tâm đƣợc thực hiện trong

mạng LAN. Những thiết bị chính của mạng LAN bao gồm: Máy chủ, máy

trạm (PC), máy in, thiết bị dùng để lƣu trữ, máy quét tốc độ cao, quét 2 mặt,

tƣờng lửa (firewall),..Các thiết bị này đƣợc lắp đặt theo mô hình sau:

Page 61: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

211

Ngoài các thiết bị nêu trên còn có các thiết bị khác nhƣ thiết bị mạng

(Switch, NIC, Cable, Patch Panell...), ổn áp (UPS), thiết bị chống sét,...Do

khối lƣợng dữ liệu (Image) luân chuyển trong mạng lớn nên yêu cầu mạng

phải có băng thông rộng. Ví dụ nhƣ Switch, NIC phải có tốc độ Gigabits

(1024MB).

Mạng LAN chạy hệ điều hành Windows server 2003, máy trạm chạy hệ

điều hành Windows XP hoặc Windows vista. Hệ quản trị CSDL MS SQL

server 2005 hoặc MS SQL server 2008. Ngoài ra, phần mềm ICR bao gồm

các module (Manager, Interpret, Verify và Transfer) đƣợc cài đặt tại các máy

thực hiện các công việc quản lý, nhận dạng, sửa lỗi, chuyển đổi. Số lƣợng

thiết bị cần dùng đã trình bày trong mục 2 của chƣơng này.

3.2. Dự kiến kế hoạch xử lý: Dự kiến kế hoạch xử lý trong Phụ lục số 1

KẾT LUẬN VÀ KIẾN NGHỊ

Kết quả nghiên cứu, thử nghiệm công nghệ ICR trong 1 năm 6 tháng

qua đã chỉ ra rằng công nghệ ICR là một công nghệ hiện đại, có thể sử

dụng trong xử lý điều tra thống kê nói chung và xử lý TĐT DS nói riêng.

Công nghệ này có những ƣu điểm nổi bật nhƣ chất lƣợng dữ liệu nhập đảm

bảo hơn rất nhiều so với nhập tin bằng bàn phím (ví dụ nhƣ nhập trùng, nhập

Page 62: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

212

sót, nhập thiếu .. không thể xảy ra); dễ dàng tra cứu, lƣu giữ lâu dài phiếu

điều tra (ảnh sau khi quét); thời gian xử lý đƣợc rút ngắn; chi phí nhân công

nhập tin, chi phí bảo quản và thuê kho giảm đi rất nhiều; ngƣời lao động

tham gia xử lý làm việc trong môi trƣờng hiện đại, giảm căng thẳng, năng

suất làm việc cao do chuyên môn hóa theo từng khâu của quá trình xử lý.

Ngoài ƣu điểm trên, còn một ƣu điểm rất lớn của công nghệ ICR là có khả

năng cung cấp sớm kết quả điều tra theo từng phần. Ƣu điểm này không thể

có trong xử lý bằng phƣơng pháp nhập tin từ bàn phím vì khi nhập tin từ bàn

phím chỉ có thể lập biểu tổng hợp khi đã nhập tin xong. Còn trong xử lý áp

dụng công nghệ ICR, ngƣời ta có thể chia việc kiểm tra số liệu thành những

giai đoạn khác nhau, mỗi giai đoạn chỉ kiểm tra một số trƣờng nhất định, và

do đó có thể lập biểu tổng hợp ngay sau mỗi giai đoạn.

Trong xử lý số liệu điều tra bằng công nghệ ICR, nếu tỷ lệ quét, nhận

dạng đúng lớn hơn 95% thì việc áp dụng công nghệ ICR trong xử lý là thành

công. Nếu tỷ lệ quét, nhận dạng thấp thì thời gian, nhân lực để nhập phần

phiếu không quét đƣợc và hiệu chỉnh những dữ liệu đã quét nhƣng không

nhận dạng đƣợc là lớn. Khi đó, việc xử lý điều tra có thể phải kéo dài hơn

nhiều so với kế hoạch dự tính. Nhƣ vậy, việc áp dụng công nghệ này có thành

công hay không phụ thuộc vào nhiều yếu tố, trong đó có những yếu tố chính

nhƣ:

+) Chất lượng của phiếu điều tra. Chất lƣợng phiếu điều tra ở đây đƣợc

hiểu là phiếu sau khi điều tra có đảm bảo những yêu cầu của việc áp dụng

công nghệ quét, nhận dạng hay không. Trƣớc hết là việc thiết kế phiếu trong

xử lý điều tra áp dụng công nghệ ICR đòi hỏi phải theo những yêu cầu nhất

định, ví dụ nhƣ độ dài, rộng của các ô tƣơng ứng với từng loại trƣờng,

khoảng cách giữa các ô... Chất lƣợng giấy in phiếu cũng là một yếu tố ảnh

hƣởng đến phiếu điều tra. Giấy in quá mỏng gây ra tình trạng kẹt, rách giấy

khi quét. Giấy in quá bóng mà điền phiếu bằng bút chì dẫn đến tình trạng

phiếu mờ, không nhận dạng đƣợc. Chất lƣợng máy in phiếu cũng ảnh hƣởng

không nhỏ đến việc xử lý vì để quét, nhận dạng, mỗi loại phiếu điều tra đƣợc

định dạng một lần. Những phiếu điều tra in trên các máy in khác nhau nếu

không đảm bảo độ chính xác cũng dẫn đến tình trạng không nhận dạng đƣợc.

Chất lƣợng điền phiếu điều tra là yếu tố ảnh hƣởng rất lớn đến quá trình xử

lý. Nếu điều tra viên điền phiếu không theo mẫu chữ đã qui định, viết tràn ô,

viết mờ, tẩy xóa ... đều làm giảm tỷ lệ nhận dạng đúng.

+) Máy móc, thiết bị dùng cho xử lý (bao gồm máy quét, máy chủ, máy

trạm, thiết bị sao lƣu, thiết bị mạng ...).

Page 63: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

213

- Về máy quét. Máy quét sử dụng trong xử lý áp dụng công nghệ ICR

phải là những máy có cấu hình tối thiểu tƣơng đƣơng với máy đã thử nghiệm

tại Trung tâm. Cụ thể, cấu hình tối thiểu ít nhất là: tốc độ 100 trang/phút (A4

portrait), khay chứa giấy: 500 tờ, công suất tối thiểu/ngày (Duty Cycle)

30.000 tờ/ngày. Nếu sử dụng máy quét cấu hình quá thấp thì rất tốn nhân

công thực hiện quét phiếu, thời gian quét kéo dài tốn kém thêm các chi phí

khác đi kèm, nếu vì thế phải tăng số máy quét thì lại thêm chi phí mua thêm

module phần mềm quét. Mặt khác các máy quét tốc độ cao có bộ phận cuốn

giấy tốt hơn để có thể làm việc với tốc độ cao lâu dài và ít kén giấy. Ngoài ra

nên yêu cầu đối với máy quét khả năng lựa chọn loại bỏ màu (dropout color).

- Về máy chủ, máy trạm, mạng. Máy chủ, máy trạm dùng trong xử lý áp

dụng công nghệ ICR đòi hỏi phải có cấu hình tƣơng đối cao. Cụ thể là:

Máy chủ:

Số CPU máy chủ nên để tối thiểu là 02

RAM tối thiểu là 16 GB

Dung lƣợng ổ cứng (Hard disk capacity) tối thiểu 3TB

Máy trạm:

RAM máy trạm 1GB cho nhập tin và 2GB cho máy trạm

thực hiện quét

Ổ cứng máy trạm tối thiểu 160 GB

Thiết bị mạng: đảm bảo tốc độ các cổng là Gigabits.

+) Phần mềm nhận dạng (ICR). Phần mềm nhận dạng là một thành phần

quan trọng nhất của hệ thống xử lý áp dụng công nghệ quét, nhận dạng. Trên

thế giới, số lƣợng phần mềm nhận dạng ký tự thông minh (ICR) không nhiều.

Một số phần mềm hay đƣợc nhắc tới nhƣ IFP (Intelligent Form Procesing –

Xử lý mẫu phiếu thông minh) của IBM, ABBYY của Nga, Document for

FORMS của ReadSoft, TIS (Top Image System) của Israel,... Do vậy khi lựa

chọn phần mềm nhận dạng ký tự thông minh (ICR) cần lựa chọn phần mềm

đáp ứng những yêu cầu sau:

- Phù hợp với việc xử lý điều tra/tổng điều tra thống kê, thể hiện qua

việc đã đƣợc các cơ quan thống kê quốc gia sử dụng thành công trong việc xử

lý các tổng điều tra lớn.

- Có thể xử lý khối lƣợng lớn phiếu điều tra trong thời gian ngắn nhất

với chi phí lao động thấp và chất lƣợng đảm bảo. Điều này đƣợc thể hiện qua

tốc độ dịch, xử lý và chuyển đổi số liệu cao và việc kiểm tra xác thực dữ liệu

Page 64: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

214

có những chức năng, giao diện và tổ chức phù hợp, hiệu quả. Đặc biệt là phải

có chức năng xác thực dữ liệu theo loại ký tự kiểu nhƣ Mass verify trong

phần mềm ReadSoft, Tiling trong phần mềm TIS hay Smart key trong phần

mềm IBM.

- Có thể tổ chức, kiểm soát phiếu là một tập gồm nhiều tờ phiếu theo

đúng tuần tự và cho phép lập trình kiểm tra giữa các trƣờng trên các tờ phiếu

khác nhau trong một tập (Logic Set). Khi quét phiếu phải phát hiện các tập

phiếu không hợp lệ (thiếu, thừa tờ phiếu; tờ phiếu không nhận dạng đƣợc

trong tập; các tờ phiếu không đúng thứ tự) và máy quét phải dừng tại điểm

phát sinh để xử lý.

- Hệ thống mềm dẻo, cho phép cơ quan sử dụng có thể có thay đổi tùy

chọn phù hợp với từng loại phiếu. Đặc biệt phần mềm cần cho phép ngƣời sử

dụng dễ dàng lập trình bổ sung các yêu cầu về kiểm tra và quản lý dữ liệu

thông qua việc viết lệnh Scrip hoặc các chƣơng trình nhúng bổ sung (API).

- Hệ thống có thuộc tính nhận biết các trƣờng đã bị xóa bỏ trên phiếu

(Strike-out / Strikethrough); có thể lƣu ảnh theo nhiều định dạng trong đó có

dạng PDF.

- Hệ thống cho phép dễ dàng bổ sung thêm Engine nhận dạng để có thể

bổ sung Engine nhận dạng tiếng Việt sau này.

- Phần mềm không hạn chế bởi số lƣợng bản quét hay thời gian sử dụng

để đảm bảo có thể tiếp tục sử dụng trong xử lý các điều tra/ tổng điều tra khác

sau này.

+) Tổ chức thực hiện và nguồn nhân lực. Lựa chọn nhân lực và tổ chức

thực hiện xử lý cũng là một yếu tố ảnh hƣởng đến việc xử lý điều tra áp dụng

công nghệ ICR.

Để xử lý Tổng điều tra dân số và nhà ở 1/4/2009 bằng công nghệ ICR,

một khối lƣợng không nhỏ máy quét, máy chủ, máy trạm và các thiết bị khác

sẽ đƣợc trang bị. Những thiết bị này sẽ đƣợc sử dụng trong thời gian xử lý

Tổng điều tra dân số và nhà ở năm 2009, nhƣng nếu không tiếp tục sử dụng

thì sẽ gây ra những lãng phí lớn vì chu trình sống của máy tính và các thiết bị

điện tử thƣờng ngắn. Sau 2 hoặc 3 năm, những thiết bị đã trở nên lạc hậu, phụ

tùng thay thế không đƣợc sản xuất do các nhà sản xuất đã tập trung vào

những sản phẩm mới. Do vậy, một vấn đề đặt ra là tiếp tục sử dụng hệ thống

thiết bị nhƣ thế nào sau khi xử lý Tổng điều tra dân số và nhà ở 2009. Trên cơ

sở kết quả nghiên cứu, thử nghiệm công nghệ ICR trong thời gian qua và

kinh nghiệm của các nƣớc có thể khẳng định rằng công nghệ ICR có thể áp

dụng trong xử lý các cuộc điều tra, tổng điều tra khác, ví dụ nhƣ Tổng điều

Page 65: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

215

tra nông thôn, nông nghiệp và thủy sản, Tổng điều tra các cơ sở kinh tế, hành

chính và sự nghiệp...

Trên cơ sở kinh nghiệm thử nghiệm trong thời gian qua, nhóm nghiên

cứu đề xuất một số kiến nghị nhƣ sau:

1. Về phần mềm nhận dạng

Trung tâm Tin học Thống kê đã có gần 2 năm nghiên cứu thử nghiệm

phần mềm ReadSoft FORMS của ReadSoft và nhận thấy phần mềm này có

thể sử dụng trong xử lý Tổng điều tra dân số và nhà ở năm 2009. Tuy nhiên,

có thể chọn những phần mềm khác trong số những phần mềm đã đƣợc sử

dụng thành công trong xử lý số liệu thống kê có khối lƣợng lớn ở các nƣớc

khác. Trong trƣờng hợp sử dụng phần mềm khác, cần có chuyên gia có kinh

nghiệm về phần mềm để chuyển giao công nghệ cho cán bộ kỹ thuật của

Trung tâm Tin học để kịp xây dựng hệ thống chƣơng trình xử lý trƣớc tháng

5/2009.

2. Về thời gian lắp đặt, kiểm tra thử thiết bị và phần mềm

Thời gian lắp đặt, kiểm tra thử thiết bị và phần mềm càng sớm càng tốt,

không nên để chậm hơn tháng 2/2009 vì thời gian từ lúc lắp đặt cho đến khi

bắt đầu xử lý chỉ khoảng 4 tháng là quá ngắn (một số nƣớc dành thời gian

cho công việc tƣơng tự là 12 tháng).

3. Về lựa chọn, tập huấn điều tra viên cho Tổng điều tra dân số và nhà

ở 2009

Do yêu cầu về chất lƣợng phiếu điều tra khi xử lý bằng công nghệ ICR

cao hơn các cuộc tổng điều tra khác nên khâu lựa chọn điều tra viên, tập huấn

điều tra viên, kiểm tra giám sát trong quá trình điều tra là một công việc rất

quan trọng. Khi tập huấn, tại mỗi lớp nên có đĩa VCD trình diễn những phiếu

điều tra không nhận dạng đƣợc do sai sót của điều tra viên. Kết thúc mỗi lớp

tập huấn cần phải kiểm tra để loại bỏ những điều tra viên không đáp ứng

đƣợc yêu cầu.

Những qui định dùng cho điều tra viên, tổ trƣởng, giám sát viên cần phải

chuẩn bị kỹ lƣỡng. Trong tập huấn phải đạt đƣợc yêu cầu là điều tra viên, tổ

trƣởng, giám sát phải nhận thức đƣợc tầm quan trọng của việc tuân thủ

nghiêm những qui định trong quá trình điều tra.

4. Về việc sử dụng thiết bị sau khi xử lý Tổng điều tra dân số và nhà ở

2009.

Sau khi xử lý Tổng điều tra dân số và nhà ở năm 2009, cần tiếp tục sử

dụng thiết bị và công nghệ ICR trong xử lý tổng điều tra sắp tới, ví dụ nhƣ

Page 66: ĐỀ TÀI KHOA HỌC SỐ 2.1.10-TC07-08vienthongke.vn/attachments/article/2861/05. 2.1.10-TC07-08.pdf · nhận dạng đƣợc các chữ cái và các chữ số phải chuyển

216

Tổng điều tra nông thôn, nông nghiệp và thủy sản 2011, Tổng điều tra cơ sở

kinh tế và hành chính sự nghiệp 2012 cũng nhƣ các điều tra khác nhƣ điều tra

biến động dân số và kế hoạch hóa gia đình, điều tra doanh nghiệp, điều tra

mức sống hộ gia đình... Để có thể áp dụng công nghệ ICR trong xử lý Tổng

điều tra nông thôn, nông nghiệp và thủy sản 2011, Tổng điều tra cơ sở kinh tế

và hành chính sự nghiệp 2012 cần phải thực hiện các khâu chuẩn bị ngay từ

bây giờ. Các bƣớc thử nghiệm cần thực hiện sớm vì các phiếu điều tra này

thƣờng phức tạp hơn phiếu điều tra dân số.

TÀI LIỆU THAM KHẢO

1. Eyes & Hand. FORMS the leading software solution for automatic

data capture. ReadSoft AB, 2002.

2. Báo cáo về công tác bản đồ và sử dụng công nghệ quét trong Tổng

điều tra dân số năm 2000 của Cơ quan Thống kê nhà nƣớc Thái Lan.

3. Báo cáo kết quả khảo sát kinh nghiệm sử dụng công nghệ nhận dạng

ký tự thông minh trong Tổng điều tra dân số và nhà ở tại Cơ quan Thống kê

nhà nƣớc Philippines.

4. Báo cáo kết quả của Đoàn khảo sát tại Cục Thống kê nhà nƣớc Trung

Quốc từ ngày 13 đến ngày 20 tháng 12 năm 2006.

5. Báo cáo kết quả khảo sát áp dụng công nghệ Scanning tại Trung tâm

Thống kê Quốc gia Lào.