עושים תוכנה: Big Data (Hebrew)

Sunday, January 12, 2020

עושים תוכנה: Big Data (Hebrew)

https://episodes.castos.com/5e0db8ae40e9f5-43113304/BIGDATA.mp3 mp3

"הפרק הנוכחי הוא הראשון בסדרה ובו נתעסק בו ברקע, מושגים שצריך לדעת, בתהליכים הרלוונטיים וכמובן נגיעה בארכיטקטורה וכלים. נברר למה באמת מתכוונים שאומרים Big Data? מתי נכון להתחיל להשתמש בכלי Big Data? ואיך נראה Big Data? "

https://www.ranlevi.com/2020/01/07/osim_software_bigdata/

פרק מספקת overview טוב על מה זה Big Data? מה זה Hadoop? מה זה Map Reduce. יש לו דעה מעניינת על Spark וHadoop. ציטוט:

עד כאן זה היה שקר, אבל שקר שימושי. זה simplification, simplification שעוזרת לנו לכתוב קוד הרבה יותר מהר. אבל אנחנו עדיין צריכים לבוא ולהבין איך זה עובד מאחורי הקלעים. זה גם למה כלים כמו Spark וHadoop נותנים כלים לדאבג (to debug) ולהבין איך הdata שלנו מתחלק מאחורי הקלעים. כי להחלטות שSpark מבצע (בין אם רמזנו לו בין אם לא) יש משמעות, משמעות על ביצועיים, משמעות על סוג העבודה, משמעות על איזה קבצים ייווצרו לנו בסוף העבודה, אבל בעיקר על ביצועיים. ואם אנחנו לא נדע מה באמת קורה יכולת להיות שאנחנו נבצע הרבה עבודה מיותרת או...הקללה של מפתח Spark - shuffling. מה זה אומר shuffling? יש data במכונה א' ובמכונה ב'. בשביל החישוב מכונה א' צריכה data של מכונה ב' ומכונה ב' צריכה data של מכונה א'. אז עכשיו ברשת עוברות כמויות גדולות של data. זה לוקח זמן, לוקח משאבים, לוקח כסף.

סוף ציטוט.

* דוגמא, לסוג של NoSQL היא NoSQL היא Hive או Presto, דוגמא אחרת Neo4j - בסיס נתונים גרפי.
* דוגמא לStorage שמדברים בפרק זה Amazon S3, Google Cloud Storage.