はてぶ・Qiita・Zennのトレンド記事を紹介
【Nishika 論文サク読み 第12回】Whisperの10倍速: Canary-1B-v2 & Parakeet-TDT-0.6B-v3
論文https://arxiv.org/pdf/2509.14128 目的Whisperをはじめとする多言語ASRモデルは精度が高い一方で、大きくて遅いという課題がある。精度・サイズ・速度のトレードオフが常についてまわる。NVIDIAはこの課題に対し、25のヨーロッパ言
【Nishika 論文サク読み 第11回】Text-Embedding-to-Speech-Latent
こんにちは。Nishika AIエンジニアの渡辺です。 論文Refining Pseudo-Audio Prompts with Speech-Text Alignment for Text-Only Domain Adaptation in LLM-Based ASR
【Nishika 論文サク読み 第10回】Nemotron 3 Nano Omni
こんにちは。NishikaのAIエンジニアの髙山です。テキスト、画像、動画・音声を入力としてネイティブサポートしつつ、高速な推論を実現しているということで興味を持ちましたので、紹介します。 論文タイトル:「Nemotron 3 Nano Omni: Efficient
Qwen3-ASRを日本語音声で微調整して日本語音声認識能力を向上する 🔖 2
日本語の音声認識の課題Whisperの日本語音声認識は素晴らしいのですが、音としては合っているのに、漢字が違う、文脈的にありえない単語が紛れ込む、固有名詞が崩れるといった問題にしばしば遭遇します。これは、知識量がLLMと比べて圧倒的に足りていないのが一因かなと思います。例えば
【Nishika 論文サク読み 第9回】WhisperDiari
こんにちは。Nishika AIエンジニアの松田です。Whisperで文字起こしするだけでなく「誰が話したか」まで扱いたいケースが業務でも増えているので、関連する論文をpickしてみました。 論文WhisperDiari: A Whisper-Based Speaker
【FastAPI検証】ファイルのアップロードはUploadFileよりStarletteのRequest.stream()のほうが速い
こんにちは。NishikaのAIエンジニアの髙山です。FastAPIで大容量のファイルのアップロード機能を開発に着手しており、どの方式が速いのかを検証しましたので、その内容に共有します。 概要FastAPIの大容量ファイルアップロードAPIにおける、UploadFile(
【Nishika 論文サク読み 第8回】PHOTON: 階層構造で長文脈LLM推論を高速化 🔖 1
こんにちは。NishikaでAIエンジニアとしてインターンをしている渡邊です。今回は、普段業務でも検証で様々なLLMを使っているなかでメモリバウンドの問題にはよく直面していたので、その構造的なボトルネックに切り込んだ論文をpickしてみました。簡単に紹介できればと思います。
こんにちは。NishikaでAIエンジニアとしてインターンをしている渡邊です。Nishika主催のコンペで入賞したのをきっかけにインターン生として参画しました。初めてのインターンなのですが、裁量権がかなりあるように思えます。成果さえあればどこまでもタスクを任せていただけるとい
【Nishika 論文サク読み 第7回】音声認識と大規模言語モデルの融合
こんにちは。NishikaでAIエンジニアとしてインターンをしている笠原です。Nishika主催のコンペに参加したのをきっかけにインターンに参加しました。R&D関連の業務に従事しており、普通の会社のインターンではあまりできない体験をさせていただいています。その一環として、最
【FastAPI新機能】SSEネイティブサポートでAIチャットの処理が楽に書ける
こんにちは。Nishika AIエンジニアの髙山です。弊社のAI議事録サービスのSecureMemoCloudでもAIチャット機能が搭載され、タイムリーにFastAPIの新機能でネイティブでSSE(Server Sent Event)をサポートしていたので紹介します。 概要
【Nishika 論文サク読み 第6回】生成AIによるレコメンドタスクのバイアス補正
こんにちは。Nishika DSの並内です。Nishikaでは企業内へのLLM導入事業を行っています。その中で、汎用的に活用余地があるレコメンドタスクについて理解を深め、実務に活かすため関連論文を調査しました。 論文Large Language Models are No
【Nishika 論文サク読み 第5回】Voxtral Realtime
こんにちは。Nishika AIエンジニアの李です。 論文タイトル: Voxtral Realtime出典: arXiv:2602.11298v2組織: Mistral AI公開日: 2026年2月21日モデル: HuggingFaceライセンス: Apache
こんにちは。Nishika AIエンジニアの山口です。voicevox等のパラメータベースのttsを超え、自然言語を使ったttsの研究がないか気になったので調べてみました。 論文EmoVoice: LLM-based Emotional Text-To-Speech Mo
こんにちは。Nishika AIエンジニアの渡辺です。 論文Qwen3-ASR Technical Report: Multilingual Speech Recognition and Forced Alignment 目的従来の音声認識モデルが抱える、長時間の音声
【Nishika 論文サク読み 第2回】話者認識における自己教師あり学習
こんにちは。NishikaのAIエンジニアの髙山です。話者認識の精度をどのようにして上げるか。モデルを学習させるにもデータにラベルを振るのが大変ということで、解決策を示唆する話者認識の自己教師あり学習に関する論文をpickしてみました。 論文Self-Supervised
【Nishika 論文サク読み 第1回】Whisper-MLA
こんにちは。Nishika AIエンジニアの松田です。Whisperの省メモリ化が業務でも話題になりがちなので、関連する論文をpickしてみました。 論文WHISPER-MLA: Reducing GPU Memory Consumption of ASR Models
ソフトウェアアーキテクチャの学びと実践: Slack連携Text-to-SQLの開発を通じて
こんにちは。Nishikaデータサイエンティストの山口と申します。本記事では、レイヤードアーキテクチャでのSlack Bot開発を通じて感じたソフトウェアアーキテクチャの重要性について共有します。なお、本記事で紹介するBotは以下の記事に記載の反省を元に実装いたしました。h
こんにちは。Nishikaのデータサイエンティストの髙山です。地図ヒートマップにデータを表示する機能のDB部分の設計・開発を検証した際の知見を紹介します。 tl;drPostgreSQL+PostGIS(拡張機能)が、その他アプリケーション機能の開発においても潰しが一番
AWS Batch開発で直面した3つの課題と実践的な解決アプローチ
本記事では、AWS Batchを使った開発プロジェクトで得られた学びと、効率的な開発環境構築の工夫について共有いたします。初めてAWS Batchを扱う中で直面した技術的な課題を、チームで協力しながら解決した経験をまとめました。なお、顧客プロジェクトに関する内容のため、AWS
Flutter×GCP:化粧品分析AIエージェントの開発 🔖 1
こんにちは☀️ Nishikaデータサイエンティストの山口です🦌「この化粧品、自分の肌に合うかな?」「どの商品を選べばいいんだろう?」—多くの人が感じる化粧品選びの悩み。この記事では、AIを活用してその悩みを解決するアプリ開発の取り組みについてご紹介します。ある調査によると、
プロンプトのデプロイ後の品質管理:LLM運用を便利にするLangfuseのトレース機能 🔖 2
LLMの出力結果を本番デプロイした後に把握できてますか?LLMを使うと、さまざまなタスクで60点から70点程度の出力をシュッと出力してくれます。しかし、アプリケーションで実施するタスクのテストデータを十分に用意できず、あまり良くないと分かっていながらも、やむを得ず手元で試行錯
Devin 2.0の新機能をどのように実践的に組織的に活用するか
こんにちは。Nishikaのデータサイエンティストの髙山です。この記事をお読みの皆さんは、すでにDevinをお使いでしょうか?弊社ではDevin、Cursor、GitHub Copilotといったコーディングエージェントを積極的に活用しています。特にDevinは2月末から運用