Người ta cho rằng nguồn tài nguyên có giá trị nhất thế giới hiện nay không phải là dầu mỏ, mà là kho dữ liệu số đang tăng lên với cấp độ lũy thừa mỗi ngày. Vấn đề là làm thế nào để khai thác kho dữ liệu đồ sộ ấy để phục vụ con người. Từ đó hình thành nên ngành công nghiệp Dữ liệu lớn (Big Data), một yếu tố then chốt trong cuộc cách mạng công nghiệp 4.0.
Người ta cho rằng nguồn tài nguyên có giá trị nhất thế giới hiện nay không phải là dầu mỏ, mà là kho dữ liệu số đang tăng lên với cấp độ lũy thừa mỗi ngày. Vấn đề là làm thế nào để khai thác kho dữ liệu đồ sộ ấy để phục vụ con người. Từ đó hình thành nên ngành công nghiệp Dữ liệu lớn (Big Data), một yếu tố then chốt trong cuộc cách mạng công nghiệp 4.0.
* Dữ liệu đồ sộ
Hằng ngày, hằng giờ, thậm chí hằng giây mỗi người chúng ta đều tạo nên dữ liệu được ghi nhận lại. Chụp một bức ảnh số, đăng một nhận xét, mua một mặt hàng qua mạng, xem một trang web… tất cả những điều ấy đều là dữ liệu được ghi nhận lại. Khi bạn di chuyển trên đường cùng với smartphone, bộ định vị trên máy sẽ xác định vị trí của bạn từng giây; nếu bạn cài đặt một ứng dụng kiểm tra sức khỏe thì trên đó sẽ ghi nhận luôn những thông số về sức khỏe của bạn.
Tất cả những thứ dữ liệu ấy và thêm vô số dữ liệu khác tạo nên khối dữ liệu đồ sộ, gọi chung là Dữ liệu lớn (Big Data). Nhà phân tích Doug Laney (Công ty nghiên cứu Gartner) đã mô tả Dữ liệu lớn bằng 3V: Volume (khối lượng lưu trữ lớn), Velocity (tốc độ xử lý cao) và Variety (chủng loại đa dạng).
Thế thì Dữ liệu lớn có công dụng gì? Chúng ta hãy dùng hình ảnh so sánh sau: Một đứa bé mới sinh ra ở Việt Nam chưa biết gì, thế nhưng qua một vài năm nó biết nói tiếng Việt cho dù không ai dạy nó. Do đâu? Đó là do nó nghe mọi người xung quanh nói, ghi nhận, nhớ và tự biết các từ ngữ. Đó chính là Dữ liệu lớn của nó. Dữ liệu càng lớn và óc nhận xét càng phong phú thì đứa bé càng biết nhiều. Dữ liệu lớn cũng vậy, khai thác được nó sẽ đem lại lợi ích to lớn.
* Google và dịch cúm H1N1
Google có thể được xem là ông lớn sở hữu khối lượng Dữ liệu lớn lớn nhất thế giới. Theo thống kê, mỗi ngày Google xử lý 4,5 tỷ lượt tìm kiếm. Thông qua thống kê số lượt tìm kiếm này người ta có thể xác định được xu hướng của xã hội, dự báo các phản ứng… Nhưng một trong những kết quả bất ngờ nhất là dự báo về y tế, đó là đưa ra các chỉ báo lây lan dịch cúm H1N1 năm 2009. Đây vẫn được coi là ví dụ kinh điển của việc ứng dụng công nghệ Dữ liệu lớn.
Năm 2009, một virus cúm mới được phát hiện, được đặt tên là H1N1 và lây lan nhanh chóng. Trong vài tuần, các cơ sở y tế khắp thế giới lo sợ một đại dịch khủng khiếp đang xảy ra. Ở Mỹ, Trung tâm kiểm soát và phòng chống bệnh dịch (CDC) yêu cầu các bác sĩ thông báo về các ca bệnh cúm mới, nhưng bức tranh thật về đại dịch vẫn luôn bị chậm trễ một đến 2 tuần. Nhiều người có thể bị bệnh vài ngày rồi mới đi gặp bác sĩ. Bác sĩ báo cáo (không phải ngay lập tức), rồi từ đó chuyển tiếp qua nhiều bước đến cơ quan trung ương, và CDC chỉ xử lý các con số mỗi tuần một lần. Với một bệnh dịch lây lan nhanh, hai tuần chậm trễ cũng giống như... dài vô tận!
Trước lúc việc đó xảy ra vài tuần, Google đã công bố một công trình nghiên cứu, cho biết họ có thể dự đoán sự lây lan của bệnh cúm mùa đông ở Mỹ. Nguyên lý là xem xét những gì người sử dụng đã tìm kiếm trên Google có liên quan đến bệnh cúm. Google xác định được địa chỉ IP của người dùng, kết hợp với những thuật toán họ đã xây dựng để xác định bệnh cúm đã lây lan tới đâu.
Do vậy, khi dịch cúm H1N1 tấn công, hệ thống của Google đã chứng tỏ là một chỉ báo có ích và nhanh hơn so với các số liệu thống kê của Chính phủ. Điều gây ấn tượng là phương pháp của Google không liên quan gì đến việc phân phối gạc miệng hoặc liên hệ với các phòng khám. Nó được xây dựng trên Dữ liệu lớn. Với nó, khi đại dịch kế tiếp xảy ra, thế giới sẽ có sẵn một công cụ tốt hơn để dự đoán và do đó ngăn chặn sự lây lan.
* Phát hiện những thành phố ma ở Trung Quốc
Trong những năm gần đây, Trung Quốc đã trải qua một thời kỳ phát triển đô thị chưa từng có trong lịch sử. Tại nhiều vùng, các nhà phát triển đã xây dựng quá nhanh nhiều công trình nhà ở vượt xa mức cầu. Kết quả là xảy ra một hiện tượng khá phổ biến: các thành phố ma ở Trung Quốc, nơi mà toàn bộ khu vực ít nhiều hoang vắng.
Thế nhưng phần lớn các báo cáo về các thành phố ma đều không chính xác. Chúng dựa trên các số liệu không đáng tin cậy, ví dụ như đơn giản đếm số lượng đèn chiếu sáng vào ban đêm trong các tòa nhà dân cư. Việc đăng ký số dân cũng không chính xác, có những cư dân đăng ký nhưng không cư ngụ hoặc ngược lại. Nhiều nơi rất nhộn nhịp trong mùa du lịch nhưng trống rỗng trong mùa vắng khách. Điều đó đặt ra câu hỏi khá thú vị: thực sự thì mức độ tồi tệ của vấn đề thành phố ma ở Trung Quốc như thế nào?
Câu trả lời đã được cung cấp bởi Phòng Thí nghiệm Dữ liệu lớn (Big Data Lab) của Baidu, công ty lớn của Trung Quốc tương tự như Google của Mỹ. Baidu có một cơ sở dữ liệu khổng lồ để làm việc trên. Có 700 triệu người sử dụng dịch vụ do Baidu cung cấp, một tỷ lệ đáng kể so với 1,36 tỷ dân Trung Quốc.
Bằng cách sử dụng các dữ liệu định vị mà Baidu tập hợp được về người sử dụng (người sử dụng tới đâu thì smartphone của chính họ ghi nhận dữ liệu định vị tới đó) để tìm ra chính xác các thành phố ma Trung Quốc nằm ở đâu. Bằng cách theo dõi dữ liệu này qua thời gian, đội ngũ của Baidu có thể phân biệt được các thành phố ma với các thị trấn bỏ trống theo mùa.
Thay vì chỉ đếm số lượng nhà ở có đèn chiếu sáng vào ban đêm ở các khu vực dân cư nào đó như là một chỉ báo về thành phố ma, Dữ liệu lớn của Baidu có thể đếm dân số một cách chính xác, theo thời gian thực, và ở quy mô quốc gia. Điều đó sẽ giúp Chính phủ Trung Quốc đưa ra những quyết định hoạch định về đô thị tốt hơn trong tương lai.
* Những ứng dụng phổ biến của Dữ liệu lớn
Một trong những lĩnh vực lớn nhất của việc ứng dụng công nghệ Dữ liệu lớn là phân tích mục tiêu khách hàng, nó giúp các cơ quan, tổ chức hiểu rõ hơn về nhu cầu khách hàng cũng như hành vi và sở thích của họ. Phân tích Dữ liệu lớn giúp các công ty có bức tranh hoàn chỉnh, toàn diện hơn về khách hàng, từ đó tạo ra các mô hình tiên đoán. Ví dụ, nhà bán lẻ Target của Hoa Kỳ có thể dự đoán gần như chính xác thời điểm một khách hàng của họ mong muốn sinh em bé, để giới thiệu, cung cấp các sản phẩm phù hợp; các công ty viễn thông có thể dự đoán tốt hơn mong muốn thay đổi của khách hàng; công ty bảo hiểm xe hơi hiểu rõ khách hàng của họ lái xe như thế nào... Một số người tin rằng, chiến thắng của cựu Tổng thống Hoa Kỳ Barack Obama trong chiến dịch bầu cử tổng thống vào năm 2012 là nhờ khả năng vượt trội của các công nghệ phân tích Dữ liệu lớn.
Các ứng dụng khác có thể kể đến là: Hiểu và tối ưu hóa sản phẩm, quy trình kinh doanh; Chăm sóc sức khỏe cộng đồng; Nâng cao hiệu suất thể thao; Cải thiện an ninh và thực thi pháp luật; Xây dựng thành phố thông minh; Tối ưu hóa hoạt động tài chính - ngân hàng.
* Ứng dụng công nghệ Dữ liệu lớn vào thương mại điện tử
Đi đầu và ứng dụng mạnh nhất công nghệ Dữ liệu lớn chính là Amazon, người khổng lồ trong lĩnh vực bán lẻ trực tuyến. Theo IDC, nhờ Dữ liệu lớn, năm 2013 Amazon đạt doanh thu tới 74 tỷ USD. Trang bán lẻ trực tuyến Amazon đã sử dụng trí tuệ nhân tạo và Dữ liệu lớn để tăng doanh thu lên nhiều lần.
Amazon thu thập dữ liệu cá nhân từ những dữ liệu về sản phẩm bạn đã mua, giỏ hàng của bạn, những sản phẩm bạn tìm kiếm nhiều nhất kết hợp với dữ liệu của những khách hàng đã mua sản phẩm tương tự để đề xuất thêm những sản phẩm bổ xung. Hoạt động này mang lại 35% lợi nhuận cho Amazon hằng năm.
Amazon thu thập Dữ liệu lớn từ nhu cầu các mặt hàng của địa phương, số liệu về kho hàng, tuyến đường… để vận chuyển chúng đến kho hàng tối ưu nhất. Và một khi khách hàng đặt hàng, sản phẩm được vận chuyển đến người mua một cách nhanh chóng, mà chi phí vận chuyển lại tiết kiệm từ 10-40%.
Amazon ứng dụng công nghệ Dữ liệu lớn để tối ưu hóa về giá. Giá cả thường được thay đổi cứ sau 10 phút Dữ liệu lớn được cập nhật và phân tích. Căn cứ theo đó, Amazon giảm giá cho các mặt hàng bán chạy nhất, thu hút người mua hàng và từ đó kiếm thêm lợi nhuận cho cả những mặt hàng ít phổ biến hơn. Hoạt động này đem lại lợi nhuận trung bình 25% năm cho Amazon.
Ở Đông Nam Á - bao gồm cả Việt Nam - có thể kể đến Lazada. Lazada đã sử dụng Dữ liệu lớn thu thập được để xác định sản phẩm phù hợp với từng phân khúc khách hàng. Ví dụ, khách hàng Thái Lan thích mua tã giấy trong hộp đặc biệt, trong khi người Malaysia thích hàng được đóng trong từng gói nhỏ. Lazada dự định sử dụng khoa học dữ liệu để giúp các nhà cung ứng của mình tùy chỉnh các dịch vụ cung cấp cho các nhóm khách hàng cụ thể dựa trên tuổi, giới tính và các sở thích khác.
Ở Việt Nam, Dữ liệu lớn chưa được áp dụng rộng rãi trong ngành thương mại điện tử. Chỉ có một số ít trang bán hàng điện tử áp dụng được một phần của kho dữ liệu lớn trong hoạt động thương mại của mình, như trang bán lẻ Sendo.vn (trực thuộc Tập đoàn FPT). Sendo đã vận dụng phân tích Dữ liệu lớn trên 5 triệu sản phẩm được bán bởi 80 ngàn shop đòi hỏi sự chuyên nghiệp trong quá trình xử lý, nhằm đảm bảo loại trừ chính xác hàng giả, hàng nhái; và kiểm tra độ tin cậy về giá bán cuối cùng của các shop.
***
Cùng với AI (trí tuệ nhân tạo), Dữ liệu lớn được xem là yếu tố then chốt để tiến bước vào cuộc cách mạng công nghiệp 4.0. Hiện nay, dù đã nhận được khá nhiều sự quan tâm nhưng những kết quả ứng dụng công nghệ Dữ liệu lớn tại Việt Nam chưa xứng với tầm quan trọng của nó. Hy vọng rằng trong năm 2020, nguồn tài nguyên vô cùng phong phú này sẽ được khai thác mạnh mẽ để đem lại lợi ích lớn lao cho xã hội và tạo nên bước tiến vững chắc vào nền công nghiệp 4.0.
Dữ liệu lớn (Dữ liệu không cấu trúc) so với Dữ liệu truyền thống (Dữ liệu có cấu trúc). Biểu đồ thể hiện khối lượng dữ liệu mà các ứng dụng tạo ra mỗi phút trong năm 2019. Nguồn: Statista, Internet Live Stats, Expanded Ramblings, National Associations of City Đồ họa: Domo - Google xử lý 4.497.420 tìm kiếm - 188.000.000 email được gởi đi - 4.500.000 video được xem trên YouTube - 9.772 chuyến xe Uber được đặt - 390.300 app được tải về. |
Phạm Hoài Nhân