皆さんこんにちは
Acroquestのデータサイエンスチーム「YAMALEX」のチームリーダ、@tereka114です。
YAMALEXチームでは、コンペティションへの参加や自社製品開発、技術研究などに日々取り組んでいます。
今年も、アドベントカレンダーとして、9つの記事を本ブログで投稿しました。
本記事では、今年の記事の傾向や、私個人が特に面白いと感じた記事を紹介します。
本ブログの今年のアドベントカレンダー記事投稿傾向
今年は生成AI関係(主にBedrock)とElasticsearchの記事を執筆しました。
生成AI関係はここ数年、技術の進歩が活発になっており、今年のアドベントカレンダーでも多数の記事が投稿されていました。
そのため、アドベントカレンダーに限らず、当ブログにおいても、非常に執筆記事が増えました。
今年、本ブログで投稿した、アドベントカレンダー記事は以下の通りです。
特に読んで欲しい記事3選
アドベントカレンダーに投稿した記事の中で私が特に読んで役立つと思った記事を3つ紹介します。
ElasticsearchでLIKE検索のような部分一致検索を高速に実現する方法
MySQLやPostgreSQLなどのRDBではLIKE検索は可能ですが、LIKE検索の速度は非常に遅いです。
Elasticsearchは柔軟な検索エンジンであるため、LIKE検索をサポートしていますが、そのLIKE検索の性能を十分に引き出すには工夫が必要になります。
記事では、LIKE検索を実現するためのいくつかのパタンを紹介していますので詳細はぜひ、御覧ください。
PDFドキュメントを画像のまま検索できるColQwen2でマルチモーダル検索を試す
PDFドキュメントに画像が含まれている場合、単純な抽出では正しく検索できません。
その場合、PDFのページを画像化するのが一つの手段です。
本記事では、ドキュメントをVLM(Vision Language Model)で埋め込むColPailに対して、複数言語対応モデル(日本語込)のQwen2-VLを組み込んだColQwen2を活用してPDFに対する画像検索を実施することで期待のページを検索できました。
詳しい内容はこちらの記事を御覧ください。
acro-engineer.hatenablog.com
最後に
今年のアドベントカレンダーを紹介してきました。
非常に面白い記事が多く、生成AIをはじめとした検索などの関連技術が大きく伸びた1年に思えます。
来年も引き続き良い情報を提供していきたいと思います!
Acroquest Technologyでは、キャリア採用を行っています。
- Azure OpenAI/Amazon Bedrock等を使った生成AIソリューションの開発
- ディープラーニング等を使った自然言語/画像/音声/動画解析の研究開発
- マイクロサービス、DevOps、最新のOSSやクラウドサービスを利用する開発プロジェクト
- 書籍・雑誌等の執筆や、社内外での技術の発信・共有によるエンジニアとしての成長
少しでも上記に興味を持たれた方は、是非以下のページをご覧ください。