Ngành đầu tư đang đối mặt với một thách thức lớn liên quan đến dữ liệu về các doanh nghiệp vừa và nhỏ (SMEs): sự khan hiếm thông tin. Khác với các công ty lớn, SMEs thường không công khai dữ liệu tài chính, khiến việc đánh giá khả năng tín dụng của họ trở nên khó khăn. S&P Global Market Intelligence, bộ phận của S&P Global và là nhà cung cấp hàng đầu về xếp hạng tín dụng, đã phát triển một giải pháp đột phá với nền tảng AI RiskGauge. Bằng cách sử dụng web scraping chuyên sâu, ensemble learning và kiến trúc Snowflake, S&P đã tăng khả năng bao phủ dữ liệu SMEs lên gấp 5 lần.
RiskGauge: Giải Pháp AI Đổi Mới
Moody Hadi, Giám đốc Phát triển Sản phẩm Mới của Bộ phận Giải pháp Rủi ro tại S&P Global, cho biết: “Mục tiêu của chúng tôi là mở rộng phạm vi và nâng cao hiệu quả. Dự án này cải thiện độ chính xác và độ bao phủ dữ liệu, mang lại lợi ích cho khách hàng.” RiskGauge là một nền tảng AI tiên tiến, thu thập dữ liệu từ hơn 200 triệu trang web, xử lý qua nhiều thuật toán và tạo ra điểm số rủi ro tín dụng.
Được xây dựng trên kiến trúc Snowflake, RiskGauge đã giúp S&P mở rộng phạm vi từ các công ty lớn sang 10 triệu SMEs hoạt động tại Mỹ (không bao gồm doanh nghiệp độc lập). Nền tảng này không chỉ cung cấp điểm số tín dụng mà còn mang đến báo cáo chi tiết về tài chính, thông tin doanh nghiệp, hiệu suất lịch sử và các sự kiện quan trọng, đồng thời cho phép so sánh với các đối thủ cùng ngành.
Kiến Trúc Vận Hành Của RiskGauge
RiskGauge sử dụng một hệ thống phức tạp để thu thập dữ liệu không có sẵn công khai về SMEs. Dòng dữ liệu của nền tảng bao gồm:
- Web Scrapers/Crawlers: Thu thập thông tin từ các trang web.
- Tầng Tiền Xử Lý: Làm sạch dữ liệu thô.
- Miners: Trích xuất thông tin liên quan.
- Curators: Kiểm tra và tổ chức dữ liệu.
- RiskGauge Scoring: Tạo điểm số rủi ro.
Snowflake đóng vai trò quan trọng trong các bước tiền xử lý, khai thác và kiểm tra, sử dụng kho dữ liệu và Snowpark Container Services. Dữ liệu được thu thập từ các trang web doanh nghiệp, kết hợp với bộ dữ liệu bên thứ ba ẩn danh, sau đó áp dụng machine learning và thuật toán nâng cao để tạo ra điểm số tín dụng từ 1 (cao nhất) đến 100 (thấp nhất).
Quá Trình Thu Thập Dữ Liệu
Hadi giải thích rằng RiskGauge sử dụng quy trình web scraping đa tầng, trích xuất thông tin từ các trang “liên hệ” cơ bản, trang đích và tin tức liên quan trên các tên miền doanh nghiệp. Các miners đào sâu qua nhiều tầng URL để thu thập dữ liệu cần thiết. “Một con người không thể làm điều này,” Hadi nhấn mạnh. “Việc xử lý 200 triệu trang web sẽ cực kỳ tốn thời gian, tạo ra hàng terabyte thông tin.”
Sau khi thu thập, dữ liệu được xử lý bằng thuật toán để loại bỏ mã code như JavaScript hoặc HTML, giữ lại văn bản thuần túy, dễ đọc. Dữ liệu này được tải vào Snowflake, nơi các miners phân tích nội dung. Ensemble algorithms, kết hợp dự đoán từ nhiều mô hình cơ bản (weak learners), xác thực thông tin như tên công ty, mô tả kinh doanh, lĩnh vực, địa điểm và hoạt động vận hành. Hệ thống cũng phân tích cảm xúc (sentiment) từ các thông báo trên trang web để đánh giá mức độ tích cực hoặc tiêu cực.
Hệ thống giám sát hoạt động trang web hàng tuần, chỉ cập nhật khi phát hiện thay đổi. Một hash key được sử dụng để so sánh trạng thái trang đích giữa các lần quét, giúp tiết kiệm tài nguyên nếu không có thay đổi. “Việc cập nhật thường xuyên của một trang web cho thấy doanh nghiệp đó đang hoạt động,” Hadi nhận xét.
Thách Thức Trong Xử Lý Dữ Liệu
Việc xây dựng RiskGauge không hề đơn giản, đặc biệt với khối lượng dữ liệu khổng lồ và yêu cầu xử lý nhanh. Đội ngũ của Hadi phải tối ưu hóa thuật toán để cân bằng giữa tốc độ và độ chính xác. “Chúng tôi đã tinh chỉnh liên tục,” ông nói. “Một số thuật toán rất chính xác nhưng lại quá tốn tài nguyên tính toán.”
Một thách thức khác là sự không đồng nhất của các trang web. Hadi chia sẻ: “Ban đầu, chúng tôi nghĩ mọi trang web đều tuân theo sitemap hoặc XML, nhưng thực tế không phải vậy.” Vì các trang web có cấu trúc đa dạng, đội ngũ đã phát triển hệ thống linh hoạt, chỉ lấy văn bản cần thiết, loại bỏ mã code và các yếu tố không liên quan như JavaScript hoặc TypeScript.
Hadi kết luận: “Những thách thức lớn nhất liên quan đến hiệu suất, điều chỉnh hệ thống và thực tế rằng các trang web không được thiết kế một cách gọn gàng.”
Tầm Quan Trọng Của RiskGauge
RiskGauge đáp ứng nhu cầu cấp thiết của các nhà đầu tư, ngân hàng, công ty bảo hiểm và quản lý tài sản trong việc đánh giá rủi ro tín dụng của SMEs. Với khả năng bao phủ 10 triệu SMEs tại Mỹ, nền tảng này mang lại lợi thế cạnh tranh cho S&P Global Market Intelligence, giúp khách hàng đưa ra quyết định đầu tư chính xác hơn. Việc sử dụng Snowflake và ensemble learning không chỉ tăng hiệu quả mà còn đảm bảo dữ liệu luôn cập nhật và đáng tin cậy.
Kết Luận
Bằng cách kết hợp web scraping chuyên sâu, ensemble learning và kiến trúc Snowflake, S&P Global Market Intelligence đã cách mạng hóa việc thu thập dữ liệu về SMEs, mở rộng phạm vi bao phủ lên gấp 5 lần. RiskGauge không chỉ giải quyết vấn đề thiếu hụt thông tin mà còn mang lại giá trị thực tiễn cho các nhà đầu tư, khẳng định vai trò tiên phong của S&P trong lĩnh vực tài chính và AI.
Theo VentureBeat, https://venturebeat.com/data-infrastructure/how-sp-is-using-deep-web-scraping-ensemble-learning-and-snowflake-architecture-to-collect-5x-more-data-on-smes/
