Bất kỳ hệ thống nào, ứng dụng nào cũng sử dụng cơ sở dữ liệu được lưu trữ trên hệ quản trị dữ liệu SQL, Oracle, Python hay các loại Non-SQL như MySQL.
Theo thời gian dung lượng lưu trữ của database sẽ tăng lên theo thời gian tùy từng hệ thống. lúc đầu chỉ 100Mb database tăng lên 1Gb database rồi 100Gb Database. Vì thế mà với bất kỳ hệ thống nào cũng phải test Big data.
Contents
- 1 1. Big data là gì?
- 2 2. Xác định các cơ sở dữ liệu của hệ thống sẽ sử dụng
- 2.0.1 3. Thực hiện Test hiệu năng xử lý big data của ứng dụng, hệ thống
- 2.0.2 Tại vì trong xử lý database developer rất dễ đưa câu lệnh truy vấn của mình về loại câu lệnh tệ nhất (loại truy vấn Scan Table ).Ví dụ: nếu với 100Mb tương đương
- 2.0.3 => khi Big Data tăng cấu hình vật lý của máy chủ để test
1. Big data là gì?
Chúng ta đã nghe nhiều về big data nhưng chúng ta phải dựa vào từng hệ thống để định nghĩa như nào là big data. trong bài viết này tôi không nói về cách big data của hệ thống IOT của Facebook google đâu. Vì hệ thống của chúng ta đang hay sử dụng cho khách hàng là các hệ quản trị Database truyền thông: Excel, CSV, Mysql, SQL SERVER, ORACLE….
Ví dụ:
- 1 file excel, CSV, XML chứa dữ liệu để import vào hệ thống 10byte chưa lớn nhưng 10MB đã là tương đối rồi 1GB – 10GB data với 1 file excel cũng đã là rất lớn rất nặng để mà mở nó rồi chứ chưa nói là việc xử lý import vào hệ thống của mình.
- với 1 file DB của SQL SERVER , My SQL, Oracle 1GB bình thương 10GB trung bình nhưng đạt đến 100GB hay 1TB đã là 1 bài toán hoàn toàn khác
Vì thế ở đây tôi định nghĩa Big data là dựa vào từng loại mô hình, từng loại hệ thống để chúng ta coi như nào là Big data.
Với Big Data ở dạng IOT thì chúng tôi sẽ có 1 bài viết khác.
2. Xác định các cơ sở dữ liệu của hệ thống sẽ sử dụng
Như trên tôi đã nói. chúng ta cần xác định ngay từ đầu hệ thống của chúng ta sẽ liên quan đến Database loại nào. Bởi vì:
- Dữ liệu có thể chảy vào các hệ thống từ nhiều nguồn khác nhau như cảm biến, thiết bị IOT, máy quét, CSV, thông tin điều tra dân số, nhật ký, phương tiện truyền thông xã hội, RDBMS, v.v.
- Hệ thống, ứng dụng sẽ hoạt động với các bộ dữ liệu này. Dữ liệu này có thể phải được làm sạch và xác nhận để đảm bảo rằng dữ liệu chính xác sẽ được sử dụng trong tương lai.
- Khi đã có sự thu thập và làm sạch dữ liệu thì chúng ta sẽ lưu trữ dữ liệu bằng các loại sau: EXCEL, CSV, XML, SQL SERVER, MYSQL, ORACLE, PYTHON, NON SQL, HOẶC TRÊN MOBILE NHƯ SQLLITE
ví dụ: Phần mềm quản lý bán hàng sẽ import dữ liệu vào hệ thống có sử dụng file excel có cấu trúc và dữ liệu được lưu trữ vào DB và quản lý bằng SQL SERVER.