image

Big Data Testing Tutorial

By Beka Sazuashvili
19th March 2024

ზოგადი მიმოხილვა

Big Data Testing- არის დიდი მონაცემების აპლიკაციის ტესტირების პროცესი. Big data Testing-ის მიზანია, დავრწმუნდეთ რომ მისი ყველა ფუნქციონალი გამართულად, შეუფერხებლად და შეცდომების გარეშე მუშაობს

Big Data არის მონაცემთა დიდი ნაკრები, რომლის დამუშავება შეუძლებელია ტრადიციული გამოთვლითი ტექნიკის გამოყენებით. ამ მონაცემთა ნაკრების ტესტირება მოიცავს სხვადასხვა ინსტრუმენტებს, ტექნიკას და ჩარჩოებს დასამუშავებლად. დიდი მონაცემები ეხება მონაცემთა შექმნას, შენახვას, მოძიებას და ანალიზს, რაც აღსანიშნავია მოცულობის, მრავალფეროვნებისა და სიჩქარის თვალსაზრისით.

რა არის დიდი მონაცემთა ტესტირების სტრატეგია?

Big Data აპლიკაციის ტესტირება უფრო მეტად არის მისი მონაცემთა დამუშავების შემოწმება, ვიდრე პროგრამული პროდუქტის ინდივიდუალური მახასიათებლების ტესტირება. როდესაც საქმე ეხება დიდი მონაცემების ტესტირებას, წარმადობა (performance) და ფუნქციონალური ტესტირება არის მთავარი პრიორიტეტები. დიდი მონაცემების ტესტირების სტრატეგიაში QA ინჟინრები სხვადასხვა დამხმარე კომპონენტების გამოყენებით ამოწმებენ მონაცემბთა წარმატებულ ტერაბაიტის კლასტერს. ის მოითხოვს მაღალი დონის ტესტირების უნარებს, რადგან დამუშავება ძალიან სწრაფია.

დამუშავება შეიძლება იყოს სამი სახის : batch, real time, interactive. ამასთან, მონაცემთა ხარისხი ასევე მნიშვნელოვანი ფაქტორია Hadoop ტესტირებაში განაცხადის ტესტირებამდე აუცილებელია მონაცემთა ხარისხის შემოწმება და უნდა ჩაითვალოს მონაცემთა ბაზის ტესტირების ნაწილად. იგი მოიცავს სხვადასხვა მახასიათებლების შემოწმებას, როგორიცაა: შესაბამისობა, სიზუსტე, დუბლირება, თანმიმდევრულობა, ვალიდობა, მონაცემთა სისრულე და ა.შ.

რა არის Hadoop? Apache hadopp არის open-source ფრეიმვორკი ყველა ტიპის მონაცემის სამართავად (Structured, Unstructured, and Semi-structured)

როგორ შეამოწმოთ Hadoop პროგრამები?

დიდი მონაცემების ტესტირება ან Hadoop ტესტირება შეიძლება დაიყოს სამ ეტაპად;

ნაბიჯი 1: მონაცემთა დადგომის ვალიდაცია

პირველი ნაბიჯი ამ დიდი მონაცემების ტესტირების სახელმძღვანელოში მოიხსენიება, როგორც Hadoop-ის წინა ეტაპი და მოიცავს პროცესის ვალიდაციას. - მონაცემები სხვადასხვა წყაროდან, როგორიცაა RDBMS, ბლოგები, სოციალური მედია და ა.შ. უნდა იყოს დადასტურებული, რათა დარწმუნდეთ, რომ სწორი მონაცემები შეყვანილია სისტემაში. - წყაროს მონაცემების შედარება Hadoop სისტემაში შეტანილ მონაცემებთან, რათა დარწმუნდეთ, რომ ისინი ემთხვევა. - შეამოწმეთ, რომ სწორი მონაცემები არის ამოღებული და ჩატვირთული HDFS-ის სწორ ადგილას მონაცემთა ვალიდურობის შესამოწმებლად შეგვიძლია დავიხმაროთ შემდეგი სოფტები: talend და datameer, რომელბზეც პირადადაც მიმუშავია და საკმაოდ მარტივი გამოსაყენებელია იმის გათვალისწინებით თუ არ გაქვს აღნიშნულ სოფტებზე მუშაობის გამოცდილება.

ნაბიჯი 2: "MapReduce" ვალიდაცია

მეორე ნაბიჯი არის "MapReduce"-ის ვალიდაცია. ამ ეტაპზე, დიდ მონაცემთა ტესტერი ამოწმებს ბიზნეს ლოგიკის ვალიდაციას ყველა კვანძზე და ამოწმებს მათ მრავალ კვანძზე გაშვების შემდეგ, რაც უზრუნველყოფს, რომ: - Map Reduce პროცესი სწორად მუშაობს - მონაცემებზე დანერგილია მონაცემთა აგრეგაციის (რიგი საგნების კლასტერად ჩამოყალიბება) ან სეგრეგაციის (რიგი საგნების კლასტერად დაყოფა / განცალჯკევებისა წესები - საკვანძო მნიშვნელობის წყვილები გენერირებულია - მონაცემთა გადამოწმება Map-Reduce პროცესის შემდეგ

ნაბიჯი 3: გამომავალი ვალიდაციის ფაზა

Hadoop ტესტირების ბოლო ან მესამე ეტაპი არის გამომავალი ვალიდაციის პროცესი. გამომავალი მონაცემების ფაილები გენერირებულია და მზად არის გადასატანად EDW-ში (Enterprise Data Warehouse) ან ნებისმიერ სხვა სისტემაში მოთხოვნიდან გამომდინარე. მესამე ეტაპზე აქტივობები მოიცავს:

  • შესამოწმებლად ტრანსფორმაციის წესები სწორად გამოიყენება
  • მონაცემთა მთლიანობის შემოწმება და მონაცემთა წარმატებული ჩატვირთვა სამიზნე სისტემაში
  • იმის შესამოწმებლად, რომ არ არის მონაცემთა დაზიანება, მიზნობრივი მონაცემების შედარებით HDFS ფაილური სისტემის მონაცემებთან

ტესტირებისთვის საჭირო გარემოები

სატესტო გარემო უნდა იყოს დამოკიდებული აპლიკაციის ტიპზე, რომელსაც თქვენ ამოწმებთ. დიდი მონაცემების პროგრამული უზრუნველყოფის ტესტირებისთვის, ტესტის გარემო უნდა მოიცავდეს: - მას უნდა ჰქონდეს საკმარისი ადგილი შესანახად და დიდი რაოდენობით მონაცემების დასამუშავებლად - მას უნდა ჰქონდეს კლასტერი განაწილებული კვანძებით და მონაცემებით - მას უნდა ჰქონდეს მინიმალური CPU და მეხსიერების გამოყენება, რათა შენარჩუნდეს მაღალი შესრულება დიდი მონაცემების მუშაობის შესამოწმებლად

შეჯამება

  • როდესაც მონაცემთა ინჟინერია და მონაცემთა ანალიტიკა მიიწევს შემდეგ დონეზე, დიდი მონაცემების ტესტირება გარდაუვალია.
  • დიდი მონაცემების დამუშავება შეიძლება იყოს ჯგუფური, რეალურ დროში ან ინტერაქტიული( batch, real time, interactive.)
  • დიდი მონაცემების აპლიკაციების ტესტირების 3 ეტაპია მონაცემთა დადგმის ვალიდაცია, „MapReduce“ ვალიდაცია და გამომავალი ვალიდაციის ფაზა
  • არქიტექტურის ტესტირება დიდი მონაცემების ტესტირების მნიშვნელოვანი ეტაპია, რადგან ცუდად შემუშავებულმა სისტემამ შეიძლება გამოიწვიოს უპრეცედენტო შეცდომები და შესრულების დეგრადაცია.
  • დიდი მონაცემების შესრულების ტესტირება მოიცავს მონაცემთა გამტარუნარიანობის შემოწმებას, მონაცემთა დამუშავებას და ქვეკომპონენტის შესრულებას
  • დიდი მონაცემების ტესტირება ძალიან განსხვავდება მონაცემთა ტრადიციული ტესტირებისგან მონაცემთა, ინფრასტრუქტურისა და ვალიდაციის ინსტრუმენტების თვალსაზრისით
  • დიდი მონაცემთა ტესტირების გამოწვევები მოიცავს ვირტუალიზაციას, ტესტის ავტომატიზაციას და დიდ მონაცემთა ბაზას. ასევე პრობლემატურია დიდი მონაცემების აპლიკაციების შესრულების ტესტირებაც.