
Kedro projekt GitHub oldala
A Kedro az első nyílt forráskódú eszköz, amelyet a McKinsey tanácsadó cég részlege fejlesztett ki. Adatkutatók és mérnökök számára készült. Egy kódkönyvtár, amely adatok és csövek létrehozására használható, a gépi tanulási projekt építőkövei.
A McKinsey & Company egy globális menedzsment tanácsadó vállalat. Minőségi és kvantitatív elemzéseket végez az állami és a magánszektor vezetői döntéseinek értékelésére. Ügyfelei közé tartozik a világ legnagyobb vállalatai 80% -a.
Első nyílt forráskódú eszköz
A vállalat még soha nem jelent meg nyílt forráskódú licenc alapján a házon belül kifejlesztett eszközök közül. Valójában Kedro saját szoftverként született. Amikor azonban a céggel fennálló kapcsolat megszűnt, az ügyfelek már nem férhettek hozzá a programhoz.
A Kedro név onnan származik a görög közép vagy mag szó. Azért választották, mert ez a nyílt forráskódú eszköz kulcsfontosságú kódot kínál a fejlett elemzési projektek előállításához.
A Kedro-nak két fő előnye van:
- Lehetővé teszi a csapatok számára az egyszerűbb együttműködést az analitikai kód egységes módon történő strukturálásával.
- Ez lehetővé teszi az összes komponens zökkenőmentes áramlását a projekt minden szakaszában.
Ebbe beletartozik
- Az adatforrások konszolidációja,
- Adattisztítás
- Feature Creation
- Töltsön be adatokat gépi tanulási modellekbe magyarázó vagy prediktív elemzés céljából.
Kedro is segít a használatra kész kód megadásában. Ez igazán hasznos azoknak az adatkutatóknak, akik általában nem a szoftveralkotás szakértői.
Miért hasznos a Kedro?
Nyílt forráskódú eszközök, például a Kedro lehetővé teszik hetekkel csökkentheti a prototípus termelési kóddá történő átalakításához szükséges időt. Az elemzők kevesebb időt tölthetnek a kódolással és több időt fordíthatnak ügyfeleik hibaelhárítására.
A Kedro segít a csapatoknak moduláris adatcsatornák létrehozásában, tesztelve, bármilyen környezetben reprodukálhatók és változatosak, lehetővé téve a felhasználók számára, hogy hozzáférjenek a korábbi adatállapotokhoz. Ugyanez a kód egyetlen fejlesztő laptopjáról a felhőalapú számítást használó vállalati szintű projektté válhat. Minden iparághoz, modellhez és adatforráshoz is használható.
McKinsey eddig több mint 50 projektnél használta a Kedrót. Az egyik vezető szerint az ügyfelek különösen kedvelik a csövek vizualizációját. Rögtön látják az átalakulás különböző szakaszait, az érintett modelltípusokat, és az eredményeket a nyers adatforrásra vezethetik vissza.
McKinsey nem ez az első olyan vállalat, amely nem kapcsolódik közvetlenül a technológiához amely nyílt forráskódú eszközöket tesz közzé. Az Uber és az Airbnb már megtette.
A Kendro jellemzői és telepítése
A Kedro egy munkafolyamat-fejlesztő eszköz a robusztus, méretezhető, telepíthető, reprodukálható és verziószámos adatcsatornák létrehozása.
Melyek a Kedro főbb jellemzői?
1. Projekt sablon és kódolási szabványok
- Könnyen használható, szabványos projekt sablon
- A hitelesítő adatok, regisztráció, adatfeltöltés és a Jupyter Notebook / Lab beállításai.
- Tesztvezérelt fejlesztés a pytest használatával
- Szfinx integráció a jól dokumentált kód előállításához
2. Adatok kinyerése és verziószedése
- A számítási réteg elválasztása az adatkezelési rétegtől, beleértve a különféle adatformátumok és tárolási lehetőségek támogatását.
- Az adatkészletek és a gépi tanulási modellek verziói
3. A csövek modularitása és absztrakciója
- Tiszta Python-függvények, csomópontok támogatása a nagy kóddarabok kicsi, független szakaszokra osztására.
- A csomópontok közötti függőségek automatikus feloldása
4. A funkciók bővíthetősége
- Egy olyan plugin rendszer, amely parancsokat ad be a Kedro parancssori felületébe (CLI): Kedro-Airflow, megkönnyítve ezzel az adatcsatorna prototípusát a Kedro-ban, mielőtt az Airflow-ba, egy munkafolyamat-ütemezőbe telepítené. Kedro-Docker, a Kedro projektek konténerekbe csomagolásának és szállításának eszköze
- A Kedro telepíthető helyileg, helyben és a felhőben (AWS, Azure és GCP) vagy fürtökben (EMR, Azure HDinsight, GCP és Databricks).
Telepíthetjük a Kedrót az előzetesen hivatkozott Linux disztribúciónkra az alábbiak szerint:
sudo apt install python3-pip
pip install kedro
Az aktualizáláshoz:
pip3 install kedro -U
A dokumentációt az alábbiakkal láthatjuk:
kedro docs
További információ a címen található a projekt oldala