モブプロな人たちのブログ

横浜で Web サービス開発しているエンジニアの日記です。Python 大好き Flask 大好き。たまに SpriteKit でゲーム開発も。

Spark

PySpark の DataFrame で Case-sensitive を有効にしたい!!

こんにちは、kaorr です。 一人アドベントカレンダー8日目です。 はじめに 先日構築した PySpark の検証環境、実は1つだけ問題があるのです。 なんと、Case-insensitive なんです!! サンプルデータの作成と要件 これまでとだいたい同じですが、こんな感じ…

PySpark の DataFrame で CASE 式を書いてみた (SQL 編)

こんにちは、kaorr です。 一人アドベントカレンダー6日目です。 はじめに 先日構築した PySpark の検証環境を使って、DataFrame の CASE 式を書いてみようと思います。(その2) 今回は、SQL を使います。 サンプルデータの作成と要件 前回とほとんど同じです…

PySpark の DataFrame で CASE 式を書いてみた

こんにちは、kaorr です。 一人アドベントカレンダー5日目です。 はじめに 先日構築した PySpark の検証環境を使って、DataFrame の CASE 式を書いてみようと思います。 サンプルデータの作成と要件 # createDataFrame でデータフレームを作成する df = spar…

AWS Glue スクリプトの検証環境が欲しくて、PySpark 環境を構築してみた

こんにちは、kaorr です。 一人アドベントカレンダー4日目です。 はじめに AWS Glue のスクリプトを作り込むことになったんですが、毎回 AWS コンソール上でスクリプト作ってたらいつまで経っても検証が終わらないです・・・。 そこで、『完全再現は難しくて…